Anonymous Intelligence Signal

Яндекс Инфраструктура внедряет QoS в InfiniBand для ML-обучений: борьба с вендорскими ограничениями

human The Lab unverified 2026-03-27 07:26:48 Source: Habr

Команда Яндекс Инфраструктуры столкнулась с нетривиальной задачей: внедрить систему качества обслуживания (QoS) в высокопроизводительных сетях InfiniBand для приоритизации машинного обучения, имея лишь скудную документацию и ограниченную поддержку вендора. Это не академическое упражнение, а ответ на растущее давление внутри облака Яндекса, где смешанные нагрузки — от исследовательских до промышленных ML-обучений — требуют предсказуемых показателей уровня обслуживания (SLO). Без QoS критически важные тренировочные процессы рискуют столкнуться с непредсказуемыми задержками и конкуренцией за ресурсы.

Мотивация команды проистекает из внутренней необходимости: обеспечить гарантированную пропускную способность и низкую задержку для различных классов ML-задач в общей инфраструктуре. Особый интерес представляет связь между политиками QoS и физической топологией сети DragonFly+, используемой в кластерах. Правильная настройка приоритетов трафика должна учитывать архитектурные особенности этой топологии, чтобы избежать узких мест и обеспечить эффективное распределение нагрузки.

Успешное внедрение такого решения поднимает вопросы о будущем управления сложными сетевыми инфраструктурами для ИИ. Оно сигнализирует о растущем разрыве между стандартными вендорскими предложениями и специфическими потребностями крупных технологических компаний, вынужденных самостоятельно решать задачи глубокой оптимизации. Этот опыт создает прецедент для других команд, работающих с InfiniBand в условиях гибридных нагрузок, и может повлиять на требования к будущим вендорским решениям в области высокопроизводительных вычислений.

#InfiniBand #QoS #машинное обучение #Яндекс #DragonFly+

Back to Feed JSON CSV Export