Как вода вытесняет воздух в суперкомпьютерах Lenovo

На сегодняшний день сохраняется устойчивый тренд на извлечение максимальной мощности из каждой вычислительной единицы центра обработки данных. Пользователи хотят видеть все больше локальных хранилищ дисков внутри узлов ЦОД, а кровеносные системы передачи данных, объединяющие кластерные комплексы со скоростями сетей в 200 Гбит/сек, уже не кажутся чем-то удивительным.

Центральные процессоры и графические ускорители ежегодно становятся все более горячими. При этом устанавливать термопакеты, рассчитанные на отвод 240 Вт, в плотные форм-факторы серверов слишком рискованно из-за высокой температуры. Сегодня именно из-за неэффективного отведения выделяемого тепла большинство дата-центров заполнены оборудованием меньше, чем на половину.

Пару лет назад считалось, что максимальный предел для воздушного охлаждения – отвод 600Вт на один юнит пространства шкафа. Сегодня, используя самые современные технологии, возможно создать небольшую вычислительную «коробку» на 1U, потребляющую до 1кВт. Теоретически, с помощью воздуха возможно отвести до 1.2кВт на юнит. Однако при сохранении тренда на наращивание мощности каждой отдельной вычислительной единицы потребуется обеспечивать охлаждение не менее чем на 2кВт.

Из-за повышенной плотности вычислительных ресурсов, информационные центры масштаба следующего поколения будут серьезно ограничены в электропитании, охлаждении, площади и затратах на обслуживание. Кроме того, большое влияние на индустрию окажет необходимость соответствия постановлениям регуляторов об энергоэффективности и снижении выбросов CO2.

Андрей Сысоев, ведущий специалист по высокопроизводительным вычислительным технологиям Lenovo в России

Об авторе:

Андрей Сысоев, ведущий специалист по высокопроизводительным вычислительным технологиям Lenovo в России

Уже в этом году на рынке появятся процессоры мощностью до 300 или даже 350 Вт, требующие для охлаждения огромных радиаторов и вентиляторов. К 2022 году можно ожидать предложений по мощностям до 500 Вт на сокет. Новые процессоры потребуют вдвое большую мощность охлаждения. Технически это означает увеличение скорости вращения вентилятора в 4 раза и восьмикратный рост громкости.

При поломке в системе воздушного охлаждения оборудованию придется отрабатывать заоблачные цифры. Так, например, в системе с 5-ю вентиляторами, если один выйдет из строя, оставшиеся четыре должны выдавать на 25% большую мощность. Следовательно, скорость вращения должна увеличиться на 50%, а громкость в два раза.

Neptune на замену воздуху

Водяное охлаждение работает по принципу передачи высокой температуры от более горячего объекта более холодному. То есть до тех пор, пока температура хладагента ниже рабочей температуры сервера, выделяемое тепло будет рассеиваться в жидкости. В сравнении с воздухом, вода способна транспортировать в 4000 раз больше тепла, поэтому температурные излишки беспрепятственно отводятся от серверного оборудования. В дальнейшем, горячую воду можно использовать для обогрева здания.

Lenovo Neptune - система жидкостного охлаждения в серверах

Рис. 1 Упрощённая схема центра обработки данных, использующего технологию прямого водяного охлаждения.

Все микросхемы и модули современных вычислительных систем сконструированы для работы при температуре до 80 °C и выше. За счет широкого температурного диапазона – более 50 °C, в системе жидкостного охлаждения можно задать точные параметры с учетом специфики конкретного вычислительного центра. Микроканальные радиаторы позволяют поглощать температурные излишки непосредственно из источника – процессора, модуля памяти, жесткого диска или сетевого адаптера.

Lenovo Neptune предполагает использование горячей воды под относительно небольшим давлением, за счет чего через охлаждающую петлю в моменте проходит меньший объем жидкости. Нововведения уменьшают тепловое сопротивление и общее энергопотребление ЦОД - благодаря высокой температуре жидкости, она не нуждается в охлаждении с использованием энергоемких чиллеров.

Бассейн

До тех пор, пока температура наружного воздуха ниже температуры воды, свободного воздушного охлаждения будет достаточно для этих целей. Выделенное тепло можно использовать повторно для обогрева близлежащих домов, бассейнов и административных зданий.

SuperMUC-NG – высокая производительность и энергоэффективность для величайших научных открытий

Центральный вычислительный центр университетов города Мюнхен, Суперкомпьютерный центр Лейбница (LRZ) - один из крупнейших в мире академических центров обработки данных. LRZ предоставляет научному сообществу услуги и ресурсы HPC мирового класса, поддерживая новаторские исследования от космологии до медицины.

Суперкомпьютер Lenovo SuperMUC

Высокопроизводительные вычисления для современной науки — это краеугольный камень. Все больше и больше исследователей прибегают к помощи моделирования и симуляций в своих работах.

Со временем мощности существующего кластера стало не хватать, и суперкомпьютерный центр Лейбница заключил контракт с Lenovo на проектирование и сборку новой системы, предназначенной для обработки и визуализации больших данных. Проект получил название SuperMUC-NG (NG – New Generation) и стал третьей фазы серии суперкомпьютеров SuperMUC.

Инновационный кластер в четыре раза превзошел своего предшественника по мощности. SuperMUC-NG состоит из 6480 процессоров Intel® Xeon®серии Scalable с 311 000 ядрами и пиковой производительностью в 26,7 петафлопса. Кластер имеет 700 ТБ оперативной памяти и 70 ПБ системы хранения данных и более 60 км кабелей.

Как и его предшественники, SuperMUC-NG является чрезвычайно энергоэффективной машиной. В основу кластера легла технология высокой плотности Lenovo ThinkSystem SD650. Вычислительные узлы оснащены прямым тепловодным охлаждением узла (Direct To Node), которое использует температуру воды на входе до 50 °C.

За счет жидкостной технологии охлаждения Lenovo Neptune™ SuperMUC-NG расходует на 30-40% меньшее количество энергии, чем сопоставимые системы и использует отработанное тепло для отопления всех зданий LRZ. Помимо прочего, система Lenovo позволила вычислительному центру сократить выбросы CO2 до 85%, что в абсолютных цифрах равно 30 тонн в год.

MareNostrum 4 — оптимальные вычисления в реальном времени

Каждый год более 10 тыс. человек посещают часовню Торре Жирона на окраине Барселоны, чтобы посмотреть на MareNostrum 4, один из самых больших и мощных суперкомпьютеров в мире. Кластер состоит из 3,456 узлов Lenovo ThinkSystem SD530 с процессорами Intel Xeon Platinum, и обладает вычислительной мощностью в 11 петафлопс.

Lenovo суперкомпьютер

Несмотря на то, что он в десять раз быстрее своего предшественника, MareNostrum 4 использует всего на 30% больше энергии при 1,3 МВт в год. Кластер признан одним из десяти лучших систем в Европе по рейтингу самых энергоэффективных вычислительных систем GREEN500.

Мощность и энергия стали критическими ограничениями для систем HPC.

Производительность и энергопотребление параллельных приложений зависит от ряда факторов, таких как:

  • Архитектурные параметры вычислителя
  • Конфигурация вычислительного узла во время исполнения кода
  • Характеристик прикладного ПО
  • Входных данных

Подбор оптимальных параметров весьма сложное занятие, которое, как правило, выполняется вручную. Это трудоёмкий процесс подбора ресурсов, а затем и мощностей, который выполняется при вводе суперкомпьютера в эксплуатацию. Со временем оптимальные параметры могут изменяться, а также варьироваться от узла к узлу внутри кластера.

Energy Aware Runtime (EAR), совместная разработка компании Lenovo и Барселонского Суперкомпьютерного Центра, позволяет подбирать оптимальный режим работы оборудования автоматически, исходя из анализа опыта работы с тем или иным заданием.

EAR, будучи составной частью технологии Lenovo Neptune, поддерживает выставление режимов автоматического и динамического выбора частоты процессора на основе различных факторов. Затем осуществляется проекция производительности и потребляемой мощности суперкомпьютера в целом. Последний шаг - настройка необходимых пороговых значений определения политик пользователей или системы для выбора частоты процессора. К примеру, система поддерживает режим экономии энергии за счет снижения частоты и наоборот, может ограничивать снижение производительности.

Андрей Сысоев (Lenovo Россия)
13/04.2020


Комментарии

Похожие статьи:

Эпичный хостинг: изучаем как AMD меняет рынок VDS-хостинга на примере компании VDSina.ru

Сегодня хостеры могут размещать до 1024 виртуалок на одной машине, что позволяет им демпинговать, наращивая клиентскую базу в условиях жёсткой конкуренции. Мы выясним, почему 64-ядерные процессоры AMD EPYC лежат в основе нового в

Новая схема адресации памяти в IBM Power10 изменит взгляд на ИИ приложения

А что, если существует новый вид рабочей нагрузки, и я хочу собрать гораздо больше памяти, чем вы можете себе вообразить? Что, если я хочу, чтобы один компьютер адресовал петабайт памяти? Но сегодня никто не знает, как построить та

Что такое NVME-oF? И как работает самый быстрый протокол данных?

В последние годы мы наблюдаем рост производительности технологий хранения данных, которая, в конечном счете, достигла физических пределов, обусловленных устаревшими протоколами обмена данными в дата-центрах. Несмотря на использован

Как Microsoft планирует сделать свои дата-центры "зелёными"

По мере роста облачного бизнеса растет и его влияние на окружающую среду. Многие компании стремятся к нулевым чистым выбросам, но Microsoft идёт ещё дальше: компания не просто сводит выбросы к нулю, а стремится удалить углерод, который она выбра

Обзор мультигигабитных коммутаторов Zyxel XGS1210-12 и XGS1010-12 со скоростью 1/2.5/10 Гбит/с

Ну вот и пришло время более-менее доступных по цене коммутаторов для 2.5-гигабитных сетей с медным кабелем и 10G на оптике. В этой модели даже 1-гигабитные порты проброшены на общую матрицу, из-за чего даже на маленьких пакетах удерживается высока