• nav


Формат OAM для платформ OCP и Intel Nervana NNP L-1000

Компания Facebook не только покупает оборудование, но и развивает новый стандарт для дата-центров, известный под названием Open Compute Project, позволяющий добиться высокой плотности данных и эффективного теплоотвода в тех случаях, когда у вас задействованы тысячи серверов. На прошлой неделе Facebook представила новый форм-фактор Open Accelerator Module, предназначенный для установки ASIC-процессоров, которые со временем заменят GPU в задачах машинного обучения. Сегодня такие процессоры разрабатывают не только Nvidia, но и Intel, Google и многие другие компании. Считается, что за AI-процессорами - будущее, но основная сложность их использования - огромное тепловыделение, к которому просто не готовы современные дата-центры.

Модуль Facebook OCP OAM

Серверные системы семейства Emerald Pool поддерживают до 8 модулей OAM. Вот как выглядит каждый модуль на схематичном изображении:

Facebook OAM

Вот как выглядит модуль OAM с установленной системой охлаждения:


Согласитесь, чем-то напоминает модули Nvidia SXM2. При масштабировании OAM-модулей могут использоваться различные топологии:

Ключевые особенности модулей OAM:

  • Поддержка питания напряжением 12 В и 48 В
  • До 350 Вт (12V) и до 700 Вт (48V) TDP
  • Размеры 102mm x 165 мм
  • Поддержка одного или нескольких ASICs на модуль
  • До 8 соединений PCI-E x16
  • Поддержка одной или двух высокоскоростных соединений x16 для хоста
  • До 7 высокоскоростных соединений соединения x16
  • До 8 модулей акселераторов в одной системе
  • Совместимость со стандартными 19 " стойками

Проект OCP Accelerator Module получил поддержку ведущих IT-компаний, в числе которых Intel, AMD, Nvidia, Baidu, Microsoft, Google, Huawei и других.

Facebook Zion Accelerator Platform

Так же Facebook представила платформу для акселераторов OAM, в которую можно объединить до 8 центральных процессоров и 8 модулей OAM, объединив эти устройства высокоскоростными линиями связи.

Каждый 2-процессорный серверный модуль подключается в общую корзину по типу Blade-серверов, и в той же платформе можно использовать до 8 модулей OAM.

Обратите внимание - каждый процессор имеет выход к сетевому соединению и ускорителю.

Каждый узел серверной платформы Zion - это 2-процессорная машина под Xeon LGA3647. Обратите внимание на размер радиаторов на процессорах. Каждый из CPU имеет свой сетевой модуль стандарта OCP 3.0.

Платформа для акселераторов фактически является посадочным местом для 8 модулей OAM. Расстояние между радиаторами - минимально, на материнской плате не видно ни чипов, ни элементов питания.

Каждый OAM-модуль имеет два гнезда с контактами, по которым передаются данные и питание. Это унифицированные разъёмы, допускающие использование акселераторов разных производителей. Опять же, идея такого подключения очень смахивает на Nvidia SXM2.

Каждый модуль весит не меньше килограмма, а для установки не требуется какого-то специального инструмента, как в случае с акселераторами Nvidia.

Кабели PCI Express

Для соединения процессоров и акселераторов используются огромные кабели PCI Express. Да, ничего лучше, чем проще вытащить PCI-E наружу, разработчики не придумали. 

Каждый из разъёмов PCI Express обеспечивает подключение по 8 шинам PCI-E x16 (итого 128 линий PCI-E), что больше чем в арсенале 2-процессорных серверов на базе Xeon Scalable, то есть запас по скорости интерконнекта ещё есть.

Intel Nervana NNP L-1000

Intel использует форм-фактор Open Compute Project Accelerator Module (OAM) для своей новой платформы NNP, которая явно нацелена на рынок GPU, где лидирует Nvidia Tesla. На OCP Summit 2019 мы получили представление о модуле Intel Nervana NNP L-1000, а также топологии системы ускорителя. Для NVIDIA архитектура OAM может стать явной угрозой для серверов DGX-1 и DGX-2(h).

Чип Intel Nervana использует HBM2-память, что хорошо видно на фотографии сверху, ожидается что её объём составит 32 Гб, как у Nvidia Tesla V100.

На примере Intel Nervana видно, что представляет собой "процессорное гнездо" модулей OAM.

Семейство процессоров Spring Crest позволяет масштабировать вычислительные узлы до 32 процессоров (читай OAM-модулей) в одной системе. Естественно, столько модулей не вместятся в одном корпусе, но PCI Express кабели позволяют распределить один вычислительный узел на несколько физических корпусов.

Подобные системы мощностью до 13.9 КВт появятся в продаже до конца 2019 года. Не стоит забывать, что речь идёт именно о модулях ускорения машинного обучения, которым дополнительно нужны и серверы на обычных x86 процессорах.

Заключение

Практически, архитектура OAM позволяет подключать до 32 ускорителей к одному хосту без использования дорогих интерконнектов NVSwitches или Infiniband. Совершенно понятно, что основной задачей разработчиков было пошатнуть лидирующие позиции Nvidia на рынке систем для машинного обучения и искусственного интеллекта. Без сомнения, Nvidia найдёт чем ответить, особенно учитывая информацию о покупке ею компании Mellanox.

Рон Амадео
19/03.2019




ПОХОЖИЕ СТАТЬИ:

Диверсификация поставщика CPU: чем заменить Intel в условиях санкций

А что если завтра в связи с очередным обострением, вам запретят покупать серверы на базе Intel, а ваша EMC без техподдержки превратится в тыкву? Там, "наверху", рассматривают и такой вариант, и ваш корпоративный ЦОД долже...

Умные чипы сгладят отказ от закона Мура в датацентрах

Закон Амдала задаёт практический предел пользы от распараллеливания, так что дальнейшее ускорение возможно просто путем переопределения общей задачи таким образом, чтобы сделать ранее сериализованные операции распараллеливаемыми.

Секреты профессионалов: как масштабируют ЦОД облачные провайдеры

Вас всегда интересовало, а как операторы ЦОД-ов выбирают и настраивают своё оборудование? Почему, например, они устанавливают сервер «А», а не «Б», на что опираются - на скорость VM или потенциальное их количество в стойке, и как ...

Как работают системы бесперебойного энергоснабжения в ЦОДах

В этой статье мы расскажем как в ЦОД обеспечивается бесперебойная работа оборудования с точки зрения резервирования источников питания. В качестве практического кейса в завершение статьи мы рассмотрим недавний инцидент во время мас...

Каковы шансы у AMD на серверном рынке? Экспертное мнение и аналитика.

Почему AMD возлагает свои надежды на второе поколение процессоров, объявленное 7 августа 2019 года и суждено ли этим надеждам сбыться? Мы совершим небольшой экскурс в историю, и посмотрим, почему так получилось с Opteron-ами, и как...


НА ФОРУМЕ ГОВОРЯТ



НОВЫЕ СТАТЬИ
Обзор и тестирование оборудования Digma 3G/4G

В обзоре 3G/4G антенн Digma G523 и G037 мы узнали, что Digma решил производить и сетевое оборудование, и своё ползучее наступление решил продолжить выпуском роутером и «свистком» 3G/4G – Digma Mobile...

Gamdias TALOS M1 LITE – недорогой корпус из закаленного стекла

Бренд Gamdias, который хорошо знаком нам по игровой периферии (см обзор игровых гарнитур Gamdias HEBE P1, Gamdias Hephaestus 7.2, клавиатур Gamdias Hermes E2, Gamdias Hermes E1 Combo и т.д.), но вообще у этого бренда ...