Формат OAM для платформ OCP и Intel Nervana NNP L-1000

Компания Facebook не только покупает оборудование, но и развивает новый стандарт для дата-центров, известный под названием Open Compute Project, позволяющий добиться высокой плотности данных и эффективного теплоотвода в тех случаях, когда у вас задействованы тысячи серверов. На прошлой неделе Facebook представила новый форм-фактор Open Accelerator Module, предназначенный для установки ASIC-процессоров, которые со временем заменят GPU в задачах машинного обучения. Сегодня такие процессоры разрабатывают не только Nvidia, но и Intel, Google и многие другие компании. Считается, что за AI-процессорами - будущее, но основная сложность их использования - огромное тепловыделение, к которому просто не готовы современные дата-центры.

Модуль Facebook OCP OAM

Серверные системы семейства Emerald Pool поддерживают до 8 модулей OAM. Вот как выглядит каждый модуль на схематичном изображении:

Facebook OAM

Вот как выглядит модуль OAM с установленной системой охлаждения:


Согласитесь, чем-то напоминает модули Nvidia SXM2. При масштабировании OAM-модулей могут использоваться различные топологии:

Ключевые особенности модулей OAM:

  • Поддержка питания напряжением 12 В и 48 В
  • До 350 Вт (12V) и до 700 Вт (48V) TDP
  • Размеры 102mm x 165 мм
  • Поддержка одного или нескольких ASICs на модуль
  • До 8 соединений PCI-E x16
  • Поддержка одной или двух высокоскоростных соединений x16 для хоста
  • До 7 высокоскоростных соединений соединения x16
  • До 8 модулей акселераторов в одной системе
  • Совместимость со стандартными 19 " стойками

Проект OCP Accelerator Module получил поддержку ведущих IT-компаний, в числе которых Intel, AMD, Nvidia, Baidu, Microsoft, Google, Huawei и других.

Facebook Zion Accelerator Platform

Так же Facebook представила платформу для акселераторов OAM, в которую можно объединить до 8 центральных процессоров и 8 модулей OAM, объединив эти устройства высокоскоростными линиями связи.

Каждый 2-процессорный серверный модуль подключается в общую корзину по типу Blade-серверов, и в той же платформе можно использовать до 8 модулей OAM.

Обратите внимание - каждый процессор имеет выход к сетевому соединению и ускорителю.

Каждый узел серверной платформы Zion - это 2-процессорная машина под Xeon LGA3647. Обратите внимание на размер радиаторов на процессорах. Каждый из CPU имеет свой сетевой модуль стандарта OCP 3.0.

Платформа для акселераторов фактически является посадочным местом для 8 модулей OAM. Расстояние между радиаторами - минимально, на материнской плате не видно ни чипов, ни элементов питания.

Каждый OAM-модуль имеет два гнезда с контактами, по которым передаются данные и питание. Это унифицированные разъёмы, допускающие использование акселераторов разных производителей. Опять же, идея такого подключения очень смахивает на Nvidia SXM2.

Каждый модуль весит не меньше килограмма, а для установки не требуется какого-то специального инструмента, как в случае с акселераторами Nvidia.

Кабели PCI Express

Для соединения процессоров и акселераторов используются огромные кабели PCI Express. Да, ничего лучше, чем проще вытащить PCI-E наружу, разработчики не придумали. 

Каждый из разъёмов PCI Express обеспечивает подключение по 8 шинам PCI-E x16 (итого 128 линий PCI-E), что больше чем в арсенале 2-процессорных серверов на базе Xeon Scalable, то есть запас по скорости интерконнекта ещё есть.

Intel Nervana NNP L-1000

Intel использует форм-фактор Open Compute Project Accelerator Module (OAM) для своей новой платформы NNP, которая явно нацелена на рынок GPU, где лидирует Nvidia Tesla. На OCP Summit 2019 мы получили представление о модуле Intel Nervana NNP L-1000, а также топологии системы ускорителя. Для NVIDIA архитектура OAM может стать явной угрозой для серверов DGX-1 и DGX-2(h).

Чип Intel Nervana использует HBM2-память, что хорошо видно на фотографии сверху, ожидается что её объём составит 32 Гб, как у Nvidia Tesla V100.

На примере Intel Nervana видно, что представляет собой "процессорное гнездо" модулей OAM.

Семейство процессоров Spring Crest позволяет масштабировать вычислительные узлы до 32 процессоров (читай OAM-модулей) в одной системе. Естественно, столько модулей не вместятся в одном корпусе, но PCI Express кабели позволяют распределить один вычислительный узел на несколько физических корпусов.

Подобные системы мощностью до 13.9 КВт появятся в продаже до конца 2019 года. Не стоит забывать, что речь идёт именно о модулях ускорения машинного обучения, которым дополнительно нужны и серверы на обычных x86 процессорах.

Заключение

Практически, архитектура OAM позволяет подключать до 32 ускорителей к одному хосту без использования дорогих интерконнектов NVSwitches или Infiniband. Совершенно понятно, что основной задачей разработчиков было пошатнуть лидирующие позиции Nvidia на рынке систем для машинного обучения и искусственного интеллекта. Без сомнения, Nvidia найдёт чем ответить, особенно учитывая информацию о покупке ею компании Mellanox.

Рон Амадео
19/03.2019


Комментарии

Похожие статьи:

Обзор и FAQ сервера Huawei Taishan 2280 V2: ARM64 сервер на собственных процессорах Kunpeng 920

Мы подробно изучаем первый доступный в широкой продаже ARM64 сервер: как он работает, как управляется, с каким софтом совместим и ради чего вообще стоит переходить на китайские процессоры, отказываясь от 30-летней архитектуры?

Как вода вытесняет воздух в суперкомпьютерах Lenovo

Пару лет назад максимальный предел воздушного охлаждения составлял 600Вт на юнит. Сегодня теоретически с помощью воздуха возможно отвести до 1.2кВт на юнит. Однако, в будущем потребуется отводить уже 2 КВт, и без жидкостного охлаждения здесь не об

Threadripper против EPYC: сравнение трёх 32-ядерных процессоров AMD в серверных приложениях

32 ядра - это тот рубеж, где всё ещё можно обойтись лицензией на 1 сокет VMware, а поэтому процессор должен быть самый быстрый на свете! Мы протестируем 6 серверных приложений, включая 1С Предприятие, MySQL и NGINX, чтобы выбрать лучший!

На чём работает Cloudflare: intel not inside!

Самые тяжелые нагрузки в сети CloudFlare - это Firewall и бессерверные сервисы, из-за чего CPU - это самая затратная статья в бюджете сервера Cloudflare. Подход компании к проектированию серверов сильно отличается от традиционных сетей доставки ко