Алексей Морозов на HighLoad++ 2024

Микросервисы на InfiniBand: 800 Gbps в распределенном обучении рекомендательных нейросетей

Нейронные сети и искусственный интеллект (data science)

Фреймворки

C/C++

Python

Оптимизация производительности

Распределенные системы

Machine Learning

Рекомендации / ML

3 декабря, 12:20, Зал «13. Найроби+Касабланка (2 этаж)»

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Как эффективно организовать коммуникацию и синхронизацию данных между вычислительными узлами? Доклад о том, что ждет разработчика, который хочет выжать максимум как из отдельного хоста, так и из целого кластера на задачах машинного обучения.

Целевая аудитория

Бэкенд-разработчики, которые хотят вкатиться в дивный мир распределенного обучения нейронных сетей и хотят понимать, как эффективно утилизировать железо, на порядки превосходящее по производительности привычные CPU-only-облачные машины.

Тезисы

Скачать презентацию Все презентации конференции

Распределенное обучение на примере ранжирующей модели в отделе рекламы Яндекса — это:
1. датасеты в 1+ PiB с требованием распределенного сортированного чтения;
2. шардированный parameter server в несколько TB параметров и рабочей нагрузкой в 300+ Gbps (37 GB/s) на хост;
3. сотни миллиардов рублей в год, с т.з. бизнеса.

В рекламе действует правило «больше модель и быстрее доставка до прода = кратно больше денег». В докладе мы расскажем про оптимизации производительности распределенного обучения нейросетей для рекомендательных систем:
* как обсуждать техническую сложность и зоопарк сетевых коммуникаций на GPU-серверах в красивый клиент-серверный интерфейс;
* как выжать физический предел производительности сетевых карт InfiniBand до 800 Gbps на каждом хосте и как это помогает зарабатывать рекламе деньги;
* какими знаниями должен обладать обычный бэкендер, использующий CPU-only-хосты и TCP/IP-протоколы, чтобы вкатиться в разработку под на порядки более мощное железо.

Алексей Морозов

Яндекс

Разработчик ML-инфраструктуры рекомендательных систем. Занимался как разработкой архитектур и внедрением нейронных сетей, так и разработкой фреймворков их обучения.

Яндекс

Яндекс — технологическая компания, которая создаёт инновационные продукты на основе машинного обучения и нейронных сетей. Команда талантливых математиков и программистов развивает самую популярную в России поисковую систему и более 85 пользовательских сервисов, которые помогают людям в повседневных заботах.