• nav


Технологии телеметрии Mellanox WJH для выявления проблем с сетью и хранилищем

Почему вашему бизнесу нужны передовые технологии телеметрии для выявления проблем с сетью и хранилищем?

Давайте поговорим о сетевой потоковой телеметрии и зачем она вам нужна. Если у вас когда-либо были проблемы при попытке воссоздать неполадки в сети, или вам было трудно понять, почему у вас происходила потеря пакетов, или если вы являетесь сетевым администратором, столкнувшимся с проблемами производительности сервера или хранилища, вам нужна хорошая сетевая телеметрия. Поскольку сеть позволяет получать доступ к приложениям, обмениваться данными и подключаться к хранилищу, хорошая потоковая телеметрия сети также является хорошей телеметрией приложений. Компания Mellanox решила, что её ASIC-и достаточно хороши для того, чтобы рассказать вам всю правду о том, где, когда и почему дропаются пакеты в сети.

Некоторые из вас могут спросить, что такое телеметрия?

По аналогии с автомобилем, телеметрия-это спидометр, тахометр, датчик давления масла, температуры двигателя и предупредительные лампочки приборной панели, - данные, которые вам нужны, чтобы безопасно добраться туда, куда вы хотите, и узнать, как автомобиль делает по пути. Независимо от того, ведете ли вы машину или летите на самолете, вам нужна хорошая телеметрия, и чем быстрее вы путешествуете, тем это более важно. Так же, если вы обслуживаете центр обработки данных, развертываете виртуальные машины и контейнеры или управляете развертыванием хранилища, вам нужна видимость того, что происходит внутри сетевой структуры. И чем быстрее работает ваша сеть или чем более критична производительность сети для вашего бизнеса, тем важнее это становится. Переключение потоковой телеметрии может дать вам эту важную видимость.

Переход от протоколов к потоковой телеметрии

Старая техника управления сетью гласила, что больше - означает лучше: больше протоколов, больше захваченных пакетов и -в случае проблемы—более глубокое копание в захваченных пакетах, чтобы найти причину, а затем исправить. Но за последние несколько лет в сетях центров обработки данных наметилась тенденция к упрощению. Чем более продвинутый центр обработки данных, тем меньше протоколов они любят запускать. Еще в мои дни технической поддержки у нас была поговорка: “Чем умнее клиент, тем короче файл конфигурации."Эта поговорка опиралась на тот факт, что наибольшие проблемы случались у тех, кто сразу включал все функции и поддержку всех протоколов.

Основным исключением из тенденции упрощения является необходимость большей видимости, поскольку умные люди хотят видеть, что происходит внутри их сети. Поскольку сети становятся больше и быстрее, опытные администраторы используют меньше протоколов, но стремятся к большему количеству сетевой телеметрии для достижения лучшей видимости.

Некоторые сетевые администраторы хотят улучшить потоковую телеметрию, чтобы сократить время, на поиск основной причины проблем, чтобы исключить всё, что не вызывает проблему. Большинство сетевых администраторов на самом деле не знают, используются ли их сети недостаточно или чрезмерно, потому что у них плохая видимость того, что происходит внутри самих сетей. Без этого понимания невозможно эффективно управлять сетью или правильно ее развивать.

Mellanox WJH (What Just Happens) - что, чёрт возьми, произошло с этой сетью?

WJH-это решение для мониторинга на уровне коммутатора, где ASIC свитча контролирует потоки со скоростью линии и предупредит вас, если у вас возникли проблемы с производительностью из-за потери пакетов, событий перегрузки, петель маршрутизации и т.д.

Когда обычный сетевой коммутатор дропает пакет, тот отправляется на бит-небеса, чтобы его больше никогда не видели. Пакет и вся полезная диагностическая информация просто исчезнут, и большинство этих коммутаторов будут увеличивать внутренний счетчик таких потерь. Когда вы проверите этот счетчик, коммутатор скажет:”О, у вас 504 дропа пакетов из-за кривого VLAN". Но коммутаторы ничего не скажут вам о пакете, который был отброшен, когда он был отброшен, или почему он был отброшен.

В свою очередь, Mellanox WJH позволит вам увидеть эти потерянные пакеты и рассказать вам, почему они дропнулись. WJH сообщит вам, если у вас есть проблемы с перегрузкой или буфером или даже проблемы с безопасностью. Например, если вы используете большое количество правил ACL, и происходит дроп пакетов, возможно у вас заражённый сервер или виртуальная машина. Или у вас может быть плохо настроенный ACL, который нужно исправить.

В средах без потерь, таких как NVMe over Fabrics (NVMe-oF), работающих на RoCE, могут возникнуть проблемы с производительностью, даже если пакеты не теряются. Они могут быть вызваны перегрузкой, паузой между кадрами или большой задержкой. Очень часто выясняется, что основной причиной является неравномерная балансировка нагрузки через LAG или группу ECMP.

Телеметрия Mellanox WJH

Mellanox WJH - телеметрия с аппаратным ускорением, в которой коммутатор ASIC сохраняет важные части отброшенных пакетов. Коммутатор не будет хранить весь пакет или все обычные пакеты, поскольку это потребует много места. Вместо этого коммутатор сохраняет важные части проблемного пакета, такие как IP-адрес источника и назначения, MAC, номера портов и т. д., а так же некоторые очень подробные описания того, почему, когда и где пакет был дропнут.

Аппаратное ускорение позволит свитчу записывать все важные пакеты с подробной информацией, даже когда коммутатор обслуживает несколько 100-гигабитных портов.

В крупных проектах коммутатор с технологией WJH может передавать эти пакеты в централизованную базу данных с помощью gRPC. Дальше вы можете использовать готовые Open-Source решения, такие как Kabana и Grafana. Так же коммутатор может генерировать p.cap файл всех отброшенных пакетов, так что вы можете посмотреть на него с помощью Wireshark. WJH помогает добраться до сути проблем, показывая, кто подвергается воздействию, какие приложения, какие серверы, что вызывает проблему, когда и где возникла проблема в вашей сети.

Новая надежда в сетевой телеметрии

WJH - это новый способ мониторинга сети. Традиционные инструменты мониторинга сети собирают тонны ненужных данных и параметров. Они могут даже использовать sFlow для выборки случайных пакетов, рассчитывая что вы собираете всю эту информацию, чтобы использовать ее для экстраполяции или угадать, что пошло не так в вашей сети.

По какой-то причине самые сложные сетевые проблемы обычно возникают ночью или в выходные дни, а затем вам нужно потратить несколько часов, структурируя целую гору данных от телеметрии, чтобы найти первопричину аварии. Есть даже инструменты предсказательной аналитики, говорящие: "Эй, мы посмотрим на эту гору данных для вас, и мы дадим вам 60 -70% уверенности в том, что они нашли первопричину. Они сделают эту догадку за вас, но в конце концов – это все ещё только догадки. Всё дело в том, что у вас слишком много данных (из выборки пакетов), но чаще всего это не те данные, что вам нужны (что, где, когда и почему).

Старый подход пытается угадать, когда проблема повторится, и настроить сценарий повторного создания на тестовом стенде или трассировке пакетов только для того, чтобы проблема не обнаружилась, поэтому вы повторяете попытку на следующей неделе... и через неделю после.... Это стало толчком для того, что только что произошло, передовой телеметрической технологии Mellanox. С WJH, мы работаем с теми пакетами, которые отбрасываются, и мы сообщаем о них, мы можем помочь вам добраться до основной причины и дать вам всю картину сети без необходимости повторно воспроизводить проблему.

Итак, как мне развернуть WJH?

Теперь я знаю, что некоторые из вас думают: “это звучит потрясающе, но я не могу заменить всю свою сеть коммутаторами Mellanox”. Самое замечательное в WJH заключается в том, что он работает независимо от остальной сети. Wjh, работающий на одном коммутаторе, может сообщать об ошибках, которые, вероятно, происходят на других коммутаторах на этом уровне сети, выполняющих аналогичную функцию. Это сильно отличается от In-Band телеметрии, которая лучше всего работает со всеми коммутаторами одного поставщика.

Шаг 1 - Большинство людей начинают использовать WJH, выполнив сканирование сети, которое выполняется путем включения WJH на коммутаторе, который они подключили к своей сети. Люди почти всегда удивляются, встретив ошибки, которые они раньше не замечали. Итак, шаг первый - просто включите WJH и посмотрите, что действительно происходит в вашей сети.

Шаг 2 - Далее этап очистки, на котором администраторы сети, серверов и систем хранения разбираются с ошибками, обнаруженными технологией WJH для того, чтобы избежать проблем в вашей сети.

Шаг 3 - WJH настраивается для ограниченного сбора данных, вы персонализируете WJH для вашей сети и ваших потребностей управления:

  • Вы можете установить некоторые фильтры, потому что вам не нужно сообщать о некоторых видах "обычных" ошибок.
  • Вы можете установить агент WJH в режим агрегации, в котором хранится только одна копия проблемного пакета вместо 1000 идентичных проблемных пакетов.
  • Вы можете установить уровень серьезности проблем, которые важны для вас. Некоторые из них могут быть критическими и требуют немедленного уведомления, в то время как другие вы можете проверить позже или даже игнорировать.
  • Можно задать действия уровней серьезности, например, может потребоваться отправить сообщение электронной почты по существенным вопросам и никаких предупреждений по незначительным вопросам.

Mellanox WJH-отличный инструмент для продвинутых сетевых руководителей, а также для новичков в сети, которые просто хотят простой способ определить проблемы с сетью из-за проблем с сервером и хранилищем. С WJH вам не нужно быть экспертом по сети, чтобы очень быстро найти основные причины проблем с производительностью.

Передовая технология потоковой телеметрии хороша для вашего бизнеса, - она поможет вам получить больше производительности, времени безотказной работы и производительности из сетей, которые вы эксплуатируете.

Рон Амадео
27/06.2019




ПОХОЖИЕ СТАТЬИ:

Решения для корпоративных WLAN сетей от Huawei

У крупных компаний есть готовые решения, созданные для работы с большим числом пользователей. Для оркестрации, как правило, применяется программный или аппаратный Wi-Fi контроллер, в задачи которого входит не только управление парк...

Умные чипы сгладят отказ от закона Мура в датацентрах

Закон Амдала задаёт практический предел пользы от распараллеливания, так что дальнейшее ускорение возможно просто путем переопределения общей задачи таким образом, чтобы сделать ранее сериализованные операции распараллеливаемыми.

Секреты профессионалов: как масштабируют ЦОД облачные провайдеры

Вас всегда интересовало, а как операторы ЦОД-ов выбирают и настраивают своё оборудование? Почему, например, они устанавливают сервер «А», а не «Б», на что опираются - на скорость VM или потенциальное их количество в стойке, и как ...

Как работают системы бесперебойного энергоснабжения в ЦОДах

В этой статье мы расскажем как в ЦОД обеспечивается бесперебойная работа оборудования с точки зрения резервирования источников питания. В качестве практического кейса в завершение статьи мы рассмотрим недавний инцидент во время мас...

Каковы шансы у AMD на серверном рынке? Экспертное мнение и аналитика.

Почему AMD возлагает свои надежды на второе поколение процессоров, объявленное 7 августа 2019 года и суждено ли этим надеждам сбыться? Мы совершим небольшой экскурс в историю, и посмотрим, почему так получилось с Opteron-ами, и как...


НА ФОРУМЕ ГОВОРЯТ



НОВЫЕ СТАТЬИ
A4 FStyler FG10 – беспроводная офисная мышь из новой линейки

Недавно бренд A4Tech представил новую линейку офисной и домашней периферии с интересным названием FStyler. Линейка включает и мышки, и клавиатуры, и комплекты в проводном и беспроводном исполнении. Сегодня мы рассмотрим ...

Обзор Nobby Expert NBE-PB-10-10 и Nobby Comfort NBC-TC-34-20

Бренд Nobby предлагает целый парк аксессуаров для мобильной техники – чехлы, зарядные устройства, USB кабели, беспроводные наушники и колонки. И сегодня мы протестируем симпатичный powerbank Nobby Expert NBE-PB-10-10...