Зачем AMD купила Xilinx: простым понятным языком

Последние 2 года в мире серверного оборудования идут крупные сделки слияний и поглощений, самые известные из которых - покупка чипмейкером Nvidia израильской Mellanox, процесс покупки ей же самого разработчика архитектуры ARM. Корпорация Intel скупает разработчиков технологий пачками: в 2019 году это были Smart Edge, Barefoot Networks, Omnitek и Ineda Systems. В конце октября 2020 г, к общему пиршеству присоединилась AMD, покупая Xilinx за 35 млрд. долларов.

Когда смотришь как крупные компании гребут под себя всё, что плохо лежит в мире протоколов и сетевых решений, не сразу понимаешь, что происходит, и вот давайте разбираться вместе.

Кого покупают?

Вообще, это пиршество на столе архитектуры ARM. Специалистам давно стало понятно, что в той или иной степени архитектура X86-64 остановилась в своём развитии, и на сегодня обладает единственным преимуществом - неоспоримой универсальностью. Да, на x86 процессоре Intel Xeon или AMD EPYC можно запустить абсолютно любую задачу, включая рендеринг игр в программном режиме - оно будет работать. Другое дело, что в бизнес-приложениях такой универсальности не требуется: многие процессы линейны и цикличны, и требуют быстрой обработки с низкими затратами.

SmartNICs

Среди простых понятных задач это: шифрование, сжатие, конвертация видео, работа аппаратного Firewall, дедупликация, VPN. Как видите, всё старо как мир, и к этому списку можно добавить лишь недавно появившиеся AI-задачи.

Всё это по плечу даже самым простым современным процессорам, но если вы хотите выполнять эти вычисления одновременно, да ещё на высоких скоростях, они вполне себе займут всю производительность вашего сервера ценой 20-30 тысяч $. Либо же, вы можете отдать все эти задачи одной программируемой плате с FPGA или ASIC процессором стоимостью от 700$ до 2 000$ (читайте нашу статью "Что такое SmartNIC и почему сетевые карты для серверов стали умнее"). Вот как раз разработчиков этих плат, этих технологий и скупают гиганты индустрии.

Что именно покупают?

Пока архитектура ARM остаётся открытой, самое дорогое в данных покупках - это технологии, которые позволяют брать RAW-данные или чистые потоки данных и отправлять их обрабатываться на ядрах ARM Cortex. Естественно, в цену входят и ARM-лицензии, и патенты и персонал, но с точки зрения перспективы, чем гибче у компании решение конвертации RAW-данных в ARM-compatible, тем она ценнее.

Xilinx

ARM быстрее, энергоэффективнее, а с HBA памятью ещё и компактнее. Он прекрасно масштабируется, дешевле стоит и требует меньше времени на интеграцию в силикон по сравнению с x86/64. Поэтому как бы мы ни говорили про сетевые технологии, умные платы и FPGA или ASIC, мы говорим про ARM. Вот чем хорош Xilinx? Тем что у него есть платформа Vitis, которая позволяет запускать FFMPEG, Tensorflow, OpenCV решения на ARM Cortex ядрах так же просто, как вы запускаете программу под Windows. Эта архитектура получила название ACAP (Adaptive Computer Acceleration Platform), и конечно она много больше, чем просто дополнительный вычислительный блок, но так предполагала Xilinx до того, как её купила AMD, а что будет сейчас?

Что дают такие технологии?

Начнём с самого простого, что многим из нас знакомо - с механизмов разгрузки различных протоколов. Сначала на программируемые платы вынесли оффлоад iSCSI и NFS, потом выяснилось, что на них можно переложить Firewall и алгоритмы поиска уязвимостей по сетевым логам. Более того, такая область бизнеса, как высокочастотный трейдинг (HFT), наиболее чувствительная к задержкам сети, начала переходить с X86 на FPGA.

Using SmartNIC

Файловые операции (дедупликация и сжатие), анализ видео с IP камер, поиск аномалий в логах - это не полный список того, что берут на себя программируемые платы (читайте нашу статью "Как SmartNIC платы меняют концепцию безопасности сервера в частности и облака в целом").

С точки зрения крупной корпорации, чем более развит ЦОД, тем большую экономию дают такие решения. Но есть и обратная сторона: программируемая ARM-архитектура позволяет создавать периферийные серверы для определённых задач. Например, для анализа камер видеонаблюдения на складе, и мы видели такие решения у Huawei (см наш обзор Huawei Ascend).

То есть, x86 передаёт эстафету простых задач своему ARM-коллеге, и тому есть много причин.

Main drivers of demand for "smart chips"

To the already existing market drivers (growth of information, distribution of trunk 100G channels), it is necessary to add legislative ones, in particular, traffic analysis using DPI.

Do not forget that such solutions can offer completely new tools in the field of enterprise security, for example, copying network packets invisible to the OS with further analysis, the already mentioned DPI filtering, hardware WAFL (Web Application Firewall), searching for network traffic anomalies like Snort …

And, of course, these are completely new speeds, which will now be measured in hundreds of gigabits per second with complete unloading of protocols and direct memory access.

How will IT giants dispose of this?

Over the years of its existence, each of the IT giants has found their own niche, from which they cannot leave, no matter how hard they try. For example, Intel is a processor and chipset manufacturer. This company was engaged in video cards, and SSD chips, and HBA, and even took steps towards memory - nothing went off. And even the most popular 10 Gigabit network cards X520 and X550 are not entirely Intel's own development, and technologically they have always lagged behind the market leaders, bribing them with excellent drivers, high stability and low price.

Accordingly, Nvidia is a manufacturer of Add-in cards in the form of a GPU, and so far the company has not been able to do anything besides them. There were in the distant times they made steps towards Nforce chipsets, but to no avail.

AMD today is not “AMD yesterday”, and although the company has a graphics division in its portfolio, in the server world it is associated with EPYC processors, and nothing else.

Accordingly, each manufacturer will have to use ARM technologies in the path where they have strong positions. Nvidia has already unveiled a monstrous DPU (Data Processing Unit) solution that combines SmartNIC and GPU on one add-in board. This strange and very niche product, reminiscent of a graphics card with a 200 Gigabit network port instead of DVI, is such a new thing that it’s hard to imagine if it will disappear or go off to set a new trend.

Intel, to one degree or another, has everything: an almost finished new GPU, a line of network cards, and the largest assortment of processors, but so far there is a feeling that the company is deeply knocked out from AMD's blows, not knowing how to manage your purchases. Over the past 10 years, the company has not gotten rid of the stigma of the brick makers that you build your digital world from, and nothing more. Intel is too conservative, and in its modern form is not capable of setting trends.

AMD has the best situation. Firstly, it is the chiplet design of the processors, which allows you to form a CPU in any variation. Today, the ARM core is already embedded in the EPYC 7000 and provides security functions. In particular, modern 64-core EPYC 7532 performs encryption using AES algorithms at speeds up to 380 Gb / s (read our article, how EPYC 7532 changes the face of VDS hosting ), while remaining unloaded, because the main cores are idle. In recent years, AMD has been pleased with both the fastest PCI Express 4 and the fastest memory controller, while remaining in the SoC format, without a south bridge.

From my point of view, AMD will continue to work with its very successful SoC-chiplet architecture, and will integrate Xilinx technologies into the central processing units. This is important also because the EPYC 7000 is a processor designed for Cloud architectures, and cloud providers will become the main purchasers of SmartNIC and FPGA boards in the coming years.

In addition, AMD gets access to NVME over Fabric technologies (read our review), which Xilinx possesses, which will allow to create processors for powerful storage systems with PCI Express disks and active expansion shelves, like Huawei.

Почему бы не интегрировать ARM в CPU и не поставить крест на Add-in платах?

Вообще, причины всего две: первая - это TDP процессоров, значение которого уже вплотную подбирается к 300 Вт. Добавлять лишние 40-50 Вт ARM нагрузки без значительного увеличения площади CPU не выйдет, а увеличивать размер гнезда бесконечно невозможно из-за сложностей с разводкой каналов памяти.

Вторая причина - это крайне тормознутая по современным меркам DDR4 память, использующаяся в серверах. Дополнительные платы хороши тем, что работают с собственным пулом физической памяти, и в ОЗУ передают уже результаты своей работы. В частности, решения Xilinx используют HBM2-память, и тут можно было бы интегрировать в CPU отдельную память для «умного ядра», но см предыдущий абзац.

Заключение

Определённо, эра 5G будет связана с плотной интеграцией ARM-решений как в ЦОДы, так и на удалённые объекты, которые будут полностью оборудованы без x86-серверов. Пока что Nvidia не завершила покупку компании ARM и не закрыла эту технологию от конкурентов, крупные игроки набирают себе ARM-портфолио, чтобы не остаться за бортом в эпоху беспилотных автомобилей, роботов и 100-гигабитных интернет-каналов.

Сами по себе ARM-серверы имеют право на существование (читайте наш обзор ARM64-сервера на базе Huawei Kunpeng 920), но едва ли в обозримом будущем серьёзно потеснят x86. Различные «умные» платы, работающие как сопроцессор с низкой задержкой для определённого рода бизнес-задач - это сфера, в которой будет наиболее жёсткая конкуренция.

Михаил Дегтярёв (aka LIKE OFF)
27/10/2020


Комментарии

Похожие статьи:

Эпичный хостинг: изучаем как AMD меняет рынок VDS-хостинга на примере компании VDSina.ru

Сегодня хостеры могут размещать до 1024 виртуалок на одной машине, что позволяет им демпинговать, наращивая клиентскую базу в условиях жёсткой конкуренции. Мы выясним, почему 64-ядерные процессоры AMD EPYC лежат в основе нового в

Threadripper против EPYC: сравнение трёх 32-ядерных процессоров AMD в серверных приложениях

32 ядра - это тот рубеж, где всё ещё можно обойтись лицензией на 1 сокет VMware, а поэтому процессор должен быть самый быстрый на свете! Мы протестируем 6 серверных приложений, включая 1С Предприятие, MySQL и NGINX, чтобы выбрать лучший!

На чём работает Cloudflare: intel not inside!

Самые тяжелые нагрузки в сети CloudFlare - это Firewall и бессерверные сервисы, из-за чего CPU - это самая затратная статья в бюджете сервера Cloudflare. Подход компании к проектированию серверов сильно отличается от традиционных сетей доставки ко

Насколько хорош AMD EPYC 3251? Обзор материнской платы ASRockRack EPYC3251D4I-2T формата Mini-ITX

В два раза быстрее, чем Xeon того же класса, в два раза холоднее и почти в два раза дешевле. Материнская плата формата Mini-ITX с одним из самых загадочных процессоров современного мира, идеально подойдёт для небольшого узла неболь