• nav


Формат OAM для платформ OCP и Intel Nervana NNP L-1000

Компания Facebook не только покупает оборудование, но и развивает новый стандарт для дата-центров, известный под названием Open Compute Project, позволяющий добиться высокой плотности данных и эффективного теплоотвода в тех случаях, когда у вас задействованы тысячи серверов. На прошлой неделе Facebook представила новый форм-фактор Open Accelerator Module, предназначенный для установки ASIC-процессоров, которые со временем заменят GPU в задачах машинного обучения. Сегодня такие процессоры разрабатывают не только Nvidia, но и Intel, Google и многие другие компании. Считается, что за AI-процессорами - будущее, но основная сложность их использования - огромное тепловыделение, к которому просто не готовы современные дата-центры.

Модуль Facebook OCP OAM

Серверные системы семейства Emerald Pool поддерживают до 8 модулей OAM. Вот как выглядит каждый модуль на схематичном изображении:

Facebook OAM

Вот как выглядит модуль OAM с установленной системой охлаждения:


Согласитесь, чем-то напоминает модули Nvidia SXM2. При масштабировании OAM-модулей могут использоваться различные топологии:

Ключевые особенности модулей OAM:

  • Поддержка питания напряжением 12 В и 48 В
  • До 350 Вт (12V) и до 700 Вт (48V) TDP
  • Размеры 102mm x 165 мм
  • Поддержка одного или нескольких ASICs на модуль
  • До 8 соединений PCI-E x16
  • Поддержка одной или двух высокоскоростных соединений x16 для хоста
  • До 7 высокоскоростных соединений соединения x16
  • До 8 модулей акселераторов в одной системе
  • Совместимость со стандартными 19 " стойками

Проект OCP Accelerator Module получил поддержку ведущих IT-компаний, в числе которых Intel, AMD, Nvidia, Baidu, Microsoft, Google, Huawei и других.

Facebook Zion Accelerator Platform

Так же Facebook представила платформу для акселераторов OAM, в которую можно объединить до 8 центральных процессоров и 8 модулей OAM, объединив эти устройства высокоскоростными линиями связи.

Каждый 2-процессорный серверный модуль подключается в общую корзину по типу Blade-серверов, и в той же платформе можно использовать до 8 модулей OAM.

Обратите внимание - каждый процессор имеет выход к сетевому соединению и ускорителю.

Каждый узел серверной платформы Zion - это 2-процессорная машина под Xeon LGA3647. Обратите внимание на размер радиаторов на процессорах. Каждый из CPU имеет свой сетевой модуль стандарта OCP 3.0.

Платформа для акселераторов фактически является посадочным местом для 8 модулей OAM. Расстояние между радиаторами - минимально, на материнской плате не видно ни чипов, ни элементов питания.

Каждый OAM-модуль имеет два гнезда с контактами, по которым передаются данные и питание. Это унифицированные разъёмы, допускающие использование акселераторов разных производителей. Опять же, идея такого подключения очень смахивает на Nvidia SXM2.

Каждый модуль весит не меньше килограмма, а для установки не требуется какого-то специального инструмента, как в случае с акселераторами Nvidia.

Кабели PCI Express

Для соединения процессоров и акселераторов используются огромные кабели PCI Express. Да, ничего лучше, чем проще вытащить PCI-E наружу, разработчики не придумали. 

Каждый из разъёмов PCI Express обеспечивает подключение по 8 шинам PCI-E x16 (итого 128 линий PCI-E), что больше чем в арсенале 2-процессорных серверов на базе Xeon Scalable, то есть запас по скорости интерконнекта ещё есть.

Intel Nervana NNP L-1000

Intel использует форм-фактор Open Compute Project Accelerator Module (OAM) для своей новой платформы NNP, которая явно нацелена на рынок GPU, где лидирует Nvidia Tesla. На OCP Summit 2019 мы получили представление о модуле Intel Nervana NNP L-1000, а также топологии системы ускорителя. Для NVIDIA архитектура OAM может стать явной угрозой для серверов DGX-1 и DGX-2(h).

Чип Intel Nervana использует HBM2-память, что хорошо видно на фотографии сверху, ожидается что её объём составит 32 Гб, как у Nvidia Tesla V100.

На примере Intel Nervana видно, что представляет собой "процессорное гнездо" модулей OAM.

Семейство процессоров Spring Crest позволяет масштабировать вычислительные узлы до 32 процессоров (читай OAM-модулей) в одной системе. Естественно, столько модулей не вместятся в одном корпусе, но PCI Express кабели позволяют распределить один вычислительный узел на несколько физических корпусов.

Подобные системы мощностью до 13.9 КВт появятся в продаже до конца 2019 года. Не стоит забывать, что речь идёт именно о модулях ускорения машинного обучения, которым дополнительно нужны и серверы на обычных x86 процессорах.

Заключение

Практически, архитектура OAM позволяет подключать до 32 ускорителей к одному хосту без использования дорогих интерконнектов NVSwitches или Infiniband. Совершенно понятно, что основной задачей разработчиков было пошатнуть лидирующие позиции Nvidia на рынке систем для машинного обучения и искусственного интеллекта. Без сомнения, Nvidia найдёт чем ответить, особенно учитывая информацию о покупке ею компании Mellanox.

Рон Амадео
19/03.2019




ПОХОЖИЕ СТАТЬИ:

Как работают системы бесперебойного энергоснабжения в ЦОДах

В этой статье мы расскажем как в ЦОД обеспечивается бесперебойная работа оборудования с точки зрения резервирования источников питания. В качестве практического кейса в завершение статьи мы рассмотрим недавний инцидент во время мас...

Каковы шансы у AMD на серверном рынке? Экспертное мнение и аналитика.

Почему AMD возлагает свои надежды на второе поколение процессоров, объявленное 7 августа 2019 года и суждено ли этим надеждам сбыться? Мы совершим небольшой экскурс в историю, и посмотрим, почему так получилось с Opteron-ами, и как...

Технологии телеметрии Mellanox WJH для выявления проблем с сетью и хранилищем

Поскольку сеть позволяет получать доступ к приложениям, обмениваться данными и подключаться к хранилищу, хорошая потоковая телеметрия позволяет обнаружить даже ошибки приложений. Компания Mellanox решила, что её ASIC-и достаточно х...

Обзор решения для малого офиса от Zyxel: VPN шлюз ZyWall VPN2S и точка доступа NWA1123-ACv2

Простое устройство, которым вы можете отключить вашим сотрудникам доступ к развлекательным сайтам, блокировать доступ в интернет целыми категориями веб-сайтов, настроить быстрый VPN и отказоустойчивую работу двух провайдеров.

...

Почему Intel Xeon Platinum 9200 не пошёл в массы

На сегодняшний день ни один крупный поставщик, не объявил о поддержке процессоров Intel Xeon Platinum 9200. В этой статье мы поговорим о том, почему.

...

НА ФОРУМЕ ГОВОРЯТ



НОВЫЕ СТАТЬИ
Как работают системы бесперебойного энергоснабжения в ЦОДах

В этой статье мы расскажем как в ЦОД обеспечивается бесперебойная работа оборудования с точки зрения резервирования источников питания. В качестве практического кейса в завершение статьи мы рассмотрим недавний инцидент во...

Каковы шансы у AMD на серверном рынке? Экспертное мнение и аналитика.

Почему AMD возлагает свои надежды на второе поколение процессоров, объявленное 7 августа 2019 года и суждено ли этим надеждам сбыться? Мы совершим небольшой экскурс в историю, и посмотрим, почему так получилось с Opteron-ами,...