Отказываемся от 10GBe в пользу Infiniband: инструкция по покупке на вторичном рынке

Я был первым из моих знакомых, кто установил 1 GbE сеть, и многие из них задавались вопросом: кому вообще нужен 1 GbE? Двадцать лет спустя я остаюсь первым из них, у кого дома проложена 10-Гигабатная сеть, и хотя я уже не надеюсь, что кто-то из моего окружения меня поймёт, наконец-то появилась возможность недорого выйти за рамки 10Gbe и получить по-настоящему быстрое сетевое подключение как дома, так и в офисе или в тестлабе.

На сегодняшний день экономичные решения для развертывания сети 10 GbE дома или в небольшом офисе все еще редки и дорогостоящи. В дата-центрах или на крупных предприятиях 10-гигабитная сеть используется уже около 15 лет, а домашние решения по-прежнему слишком дороги. Профессиональные сетевые карты стандарта 10GBase-T могут стоить под 400$, и только у компаний Broadcom и Aquantia есть решения ценой около 100$, как правило интегрированные в материнские платы (читайтенаше сравнение Aquantia AQC107 против Intel X550-T2). Что же до коммутаторов, то 4-портовая 10Gbe модель под витую пару может стоить 300-500$ за устройство, а если вам нужно больше 12 портов, то готовьте 1500-2000$, что уже совершенно ни в какие рамки не лезет. Конечно, можно сказать, что есть в мире ультра-дешёвые неуправляемые 10Gbe свитчи со слотами SFP+ под оптику от компаний Mikrotik и TP-Link, но если теряете основное преимущество «десяточки» - её совместимость с витой парой CAT5E небольшой длины, да и то это сомнительное достижение (читайте нашу статью: SFP+ vs 10GBase-T, какой стандарт лучше для 10-гигабитной сети). Так зачем вам все эти ограничения в 1 Гбайт/с?

Вообще, давайте чуть отвлечёмся и зададимся вопросом: в каких скоростях мы сегодня живём? Ещё 5-6 лет назад хороший SSD накопитель выдавал 400-500 Мб/с при копировании бэкапов или больших файлов с виртуалками, и казалось, что лимит 10-гигабитной сетки будет выработан ещё очень нескоро. Сегодня же самый средненький NVME SSD показывает линейные скорости до 3 Гб/с, и уже есть решения со скоростями 4-5 Гб/с. При установке таких накопителей в качестве SSD кэша в RAID массив даже из медленных HDD, вы вполне себе можете рассчитывать на скорость массива в 3-4 Гб/с при работе с закэшированными данными. Как говорится, 10Gbe уже нервно курит в сторонке со своим пиком 1.25 Гб/c, достижимых при использовании MTU выше 9К.

Да, конечно, мы говорим о каких-то пограничных случаях, когда оборудование работает на максимальной скорости и не зажато возможностями софта. Например, VMware ESXi искусственно ограничивает скорость миграции виртуальных машин, чтобы не нарушать стабильность вашей инфраструктуры, и порой между двумя NVME SSD одна VM может перемещаться на скорости 20 МБ/с. Более того, при многопоточном доступе к данным на сетевых папках, будь то iSCSI или SMB/NFS, скорость обычно составляет 200-300 Мб/с для SSD и 10-15 Мб/с для HDD. И по сути, максимальная производительность сетей задействуется либо при бэкапах, либо при работе с большими видеофайлами, либо в HPC-сетапах, что скорее всего, не для нас.

Тем не менее, в ЦОД-ах все эти годы на данные ограничения никто не смотрел, и рынок летел стрелой вверх. Такие компании, как Melanox (Nvidia), Qlogic, Chelsio и Intel предлагают решения со скоростями 40, 100 либо 200 Гбит/с. При использовании многожильного оптоволокна уже можно достигать скорости 400 и 600 Гбит/с, а вообще для интерконнектов в серверах для AI и ML, несколько портов могут обеспечивать «наружу» до 2.4 Тбит/c. То, что сегмент малого бизнеса и домашних пользователей безнадёжно отстал от высоких технологий сетевых карт, стало следствием бурного развития Wi-Fi, но мы отошли от темы. Вообще, такое технологическое отставание нам на руку: то, что в дата-центрах признано негодным, устаревшим и ненужным, мы можем дёшево купить на eBay или Avito, ведь для нас эти остатки более высокоразвитой цивилизации – не просто предел мечтаний, а «космос», который вот уже здесь.

В 1999 году израильский Mellanox сделал альтернативу стандарту Ethernet: стандарт Infiniband (IB), который позже обзавёлся технологией удалённого прямого доступа к памяти, RDMA. Опишу кратко преимущества этой технологии. Обычно, когда ваш компьютер обменивается данными через сеть Ethernet с использованием протокола TCP/IP, отправляемые данные копируются несколько раз через буферы стека IP на вашем локальном компьютере, затем пакеты проходят в виде кадров по сети, затем эти пакеты повторно собираются на целевом компьютере, где снова данные копируются несколько раз через буферы стека IP, чтобы в конечном итоге оказаться в целевом приложении. Обратите внимание, что все эти манипуляции и копирование данных выполняются процессором на каждом компьютере. Сетевые карты в той или иной мере берут на себя процессы разгрузки обработки пакетов, но на практике это выглядит так, что с очередным обновлением драйверов та или иная функция сетевых карт отключается и потом годами дорабатывается, и не факт, что будет работать.

RDMA работает совершенно по-другому: “клиентский” компьютер запускает приложение, которое инициирует запрос, с “серверным” компьютером, который запускает целевое/целевое приложение. Отправляемые данные уже присутствуют в пространстве памяти клиентского приложения, поэтому RDMA копирует их непосредственно по сети (InfiniBand) в пространство памяти серверного приложения. Готово! Процессор не задействован, связь полностью обрабатывается сетевым адаптером InfiniBand. Очевидно, я несколько упрощаю, но в этом и есть вся суть RDMA, которая отбрасывает множество ненужных вычислений, перемещая данные «из памяти в память» между клиентом и сервером.

Сеть Infiniband оказалась настолько удачной, что заказчики попросили Mellanox реализовать IP поверх этого протокола, в результате чего появился IP over IB (ipoib), а затем эта функция переросла в RoCE (RDMA over Converged Ethernet), позволяя использовать RDMA в существующих соединениях Ethernet без перепрокладки кабелей.

Итого, спустя 20 лет прогресса, мы получили высокоскоростную шину, общающуюся по принципу «память-память», использующую для этого самое обычное, самое дешёвое оптоволокно. Кроме того, на вторичном рынке присутствует огромный запас 40-гигабатных контроллеров, стартующих от 20$ за плату и 18-портовых свитчей ценой от 100$ за штуку.

При этом, даже подержанное 10Gbe оборудование стоит в 3-4 раза дороже, чем аналогичное IB. Зачем переплачивать, ведь можно разобраться в вопросе и дёшево получить фантастическую скорость, как в самых мощных суперкомпьютерах вчерашнего дня?

Словарь терминологии InfiniBand:

  • VPI – Virtual Protocol Interconnect, тип соединения, при котором протокол передачи данных может быть сконфигурирован пользователем.
  • VPI Card – сетевая карта Mellanox, которая может работать как Ethernet или как Infiniband адаптер. В двухпортовых платах, например, один порт может работать как Ethernet, а другой как Infiniband.
  • EN Card – Сетевая карта Mellanox, которая может работать только как Ethernet адаптер.
  • RDMA – Remote Direct Memory Access, удалённый доступ к памяти
  • IPoIB – Internet Protocol over Infiniband, позволяет осуществлять обмен данными по IP через RDMA подключение.
  • RoCE – RDMA over Converged Ethernet. Не пугайтесь слово «конвергентный», по сути это обычный Ethernet, поверх которого запускаются различные протоколы (iSCSI, VoIP).
  • SFP – Small Form-factor Pluggable, стандарт для оптических трансиверов, использовавшихся в 1-гигабитных Ethernet коммутаторах и сетевых платах.
  • SFP+ - улучшенный тип SFP. Обычно используется в 10-гигабитном сетевом оборудовании.
  • QSFP, QSFP+ - Quad Small Form Factor, тип трансивера для обмена данными по 4 каналам, обычно имеет скорость 40 Гбит/с.
  • QSFP14 – улучшенный вариант QSFP с поддержкой скоростей до 56 Гбит/c.
  • QSFP28 – улучшенный вариант QSFP14 с поддержкой скоростей до 100 Гбит/c
  • DAC – обжатый на заводе твинаксиальный медный кабель (витая пара на стероидах) с портами SFP+ для соединения оборудования на расстоянии до 5 метров.
  • AOC – активный оптический кабель с усилителем (оптоволокно на стероидах) для соединения сетевого оборудования на расстоянии до 30 метров.

Скорости соединения в зависимости от типа порта:

  • SDR – 10 Гбит/c
  • DDR – 20 Гбит/с
  • QDR – 40 Гбит/с
  • FDR – 56 Гбит/с
  • EDR – 100 Гбит/c
  • HDR – 200 Гбит/с

Все эти скорости доступны сегодня. Подавляющее большинство кабелей InfiniBand (или Ethernet SFP) - это 4-полосные кабели. Однако существуют 8-полосные и 12-полосные кабели. С помощью этих кабелей максимальная теоретическая скорость увеличивается вдвое или втрое.

Сегодня на вторичном рынке QDR или FDR оборудование продаётся по разумным ценам, а EDR стоит дороже, и кроме того надо отличать FDR от FDR10, первая обеспечивает скорость 54.3 Гбит/с, а вторая – 44.8 Гбит/с. Поэтому перед покупкой карты FDR, коммутатора или кабеля обязательно ознакомьтесь с номером модели и ее документацией. Обычно, если продавец указывает просто скорость «56 Гбит/с», этого может быть недостаточно. У Mellanox есть коммутаторы, которые имеют один и тот же номер модели, где только подномер говорит вам об использовании стандарта FDR10 или FDR. Не стесняйтесь лишний раз задать вопрос продавцу, и не удивляйтесь, если он не ответит. Реальная пропускная способность стандарта QDR составляет где-то 32 Гбит/с, поэтому сегодня этот стандарт уже не так интересен, как FDR.

Какие карты стоит покупать?

Покупая сетевые карты Mellanox на eBay, убедитесь, что вы покупаете то, что вам нужно: карты VPI поддерживают как InfiniBand, так и Ethernet, а карты EN поддерживают только Ethernet. Двухпортовые карты обычно являются лучшим решением, потому чтовы можете подключить 3 ПК без необходимости коммутатора по последовательным цепочкам. Двухпортовые карты также позволяют ПК находиться в подсети InfiniBand через первый порт и (обычно 10 GbE) подсети Ethernet через второй порт.

Mellanox MCX354A

Среди 56-гигабитных адаптеров лучшим решением будет Mellanox Connect-X3 с обозначением MCX354A-FCBT или MCX354A-FCCT.

Какой мне нужен свитч?

Почему лучше использовать указанные выше адаптеры для сети Infiniband, а не Ethernet? Да потому что вы легко купите подержанный 18-36 портовый QDR, FDR10 или FDR InfiniBand свитч по цене от 125 до 250 долларов, а такой же коммутатор для 10Gbe Ethernet уже будет стоить в 10 раз дороже. Вот посмотрите сами на примеры: 40-гигабитный 18-портовый Mellanox IS5023 или Mellanox SX6015. То есть, дешевле использовать IP over IB с коммутатором IB QDR, FDR10 или FDR, чем тратить деньги на 10Gbe.

Mellanox IS5022 Switch

Коммутаторы Mellanox имеют очень крепкие корпуса из толстой стали с шумными 40-мм вентиляторами, работающими на 15K RPM. Устанавливать их дома или в офисе даже в закрытом серверном шкафу – это гарантированно получить головную боль от жуткого шума.

А нужен ли мне свитч вообще?

Вся прелесть InfiniBand заключается в возможностях построения сетей по принципу Daisy Chain, где каждый 2-портовый адаптер является приёмником и передатчиком. Это было сделано для связи узлов в суперкомпьютерах, что позволило обходиться без свитчей даже на очень больших парках серверов.

Конечно, пропускная способность несколько страдает, но не настолько, чтобы это серьёзно было заметно в приложениях.

Какие кабели использовать?

Для связи рядомстоящего оборудования вы не найдёте ничего лучше, чем старые-добрые DAC-кабели. Их хватит для расстояний от 1 до 5 метров, а для большей дистанции используйте активные оптические кабели (AOC).

Активный оптический кабель

Имейте ввиду, что AOC более хрупкие, чем обычные оптические кабели, и если на пути прокладки есть острые углы, вы можете запросто переломить и испортить активный оптический кабель.

Какие трансиверы использовать?

Если у вас уже проложен оптический кабель, или вы только собираетесь это сделать, пожалуй, это самый лучший способ подключения хостов по Infiniband.

Трансиверы QSFP+ LC для одномодового волокна поддерживают скорость до 40 Гбит/с: это решение имеет свои плюсы, как например более дешёвый кабель, сравнительная распространённость и возможность расщеплять сигнал с одного входа QSFP+ на 4 SFP+, если нужно подключить 4 клиента по 10 Гбит/c к одному 40-гигабитному порту.

Трансивер

Для 56-гигабитных подключений на расстояниях до 100 метров ищите трансиверы QSFP+ MTP/MPO, использующие многомодовое волокно. Например, трансиверы Finisar FTL414QL2C-E5 стоимостью по 20$ позволят подключить оборудование по волокну OM3 на расстояние до 30 метров со скоростью 56 Гбит/с.

Заключение

Высокая скорость, низкая цена на вторичном рынке, возможность отказаться от коммутаторов, - это те преимущества, которые подкупают отказаться от 10Gbe и сконцентрироваться на Infiniband.

Проще и дешевле не гнаться за 56 Гбит/с, а остановиться на скорости 40 Гбит/с и использовать более дешёвые свитчи, трансиверы и одномодовые кабели.

Рон Амадео
04/11.2020


Комментарии

Похожие статьи:

Технологии телеметрии Mellanox WJH для выявления проблем с сетью и хранилищем

Поскольку сеть позволяет получать доступ к приложениям, обмениваться данными и подключаться к хранилищу, хорошая потоковая телеметрия позволяет обнаружить даже ошибки приложений. Компания Mellanox решила, что её ASIC-и достаточно х