Яндекс Инфраструктура внедряет QoS в InfiniBand для ML-обучений: борьба с вендорскими ограничениями
Команда Яндекс Инфраструктуры столкнулась с нетривиальной задачей: внедрить систему качества обслуживания (QoS) в высокопроизводительных сетях InfiniBand для приоритизации машинного обучения, имея лишь скудную документацию и ограниченную поддержку вендора. Это не академическое упражнение, а ответ на растущее давление внутри облака Яндекса, где смешанные нагрузки — от исследовательских до промышленных ML-обучений — требуют предсказуемых показателей уровня обслуживания (SLO). Без QoS критически важные тренировочные процессы рискуют столкнуться с непредсказуемыми задержками и конкуренцией за ресурсы.
Мотивация команды проистекает из внутренней необходимости: обеспечить гарантированную пропускную способность и низкую задержку для различных классов ML-задач в общей инфраструктуре. Особый интерес представляет связь между политиками QoS и физической топологией сети DragonFly+, используемой в кластерах. Правильная настройка приоритетов трафика должна учитывать архитектурные особенности этой топологии, чтобы избежать узких мест и обеспечить эффективное распределение нагрузки.
Успешное внедрение такого решения поднимает вопросы о будущем управления сложными сетевыми инфраструктурами для ИИ. Оно сигнализирует о растущем разрыве между стандартными вендорскими предложениями и специфическими потребностями крупных технологических компаний, вынужденных самостоятельно решать задачи глубокой оптимизации. Этот опыт создает прецедент для других команд, работающих с InfiniBand в условиях гибридных нагрузок, и может повлиять на требования к будущим вендорским решениям в области высокопроизводительных вычислений.