Распределенное обучение на примере ранжирующей модели в отделе рекламы Яндекса — это:
1. датасеты в 1+ PiB с требованием распределенного сортированного чтения;
2. шардированный parameter server в несколько TB параметров и рабочей нагрузкой в 300+ Gbps (37 GB/s) на хост;
3. сотни миллиардов рублей в год, с т.з. бизнеса.
В рекламе действует правило «больше модель и быстрее доставка до прода = кратно больше денег». В докладе мы расскажем про оптимизации производительности распределенного обучения нейросетей для рекомендательных систем:
* как обсуждать техническую сложность и зоопарк сетевых коммуникаций на GPU-серверах в красивый клиент-серверный интерфейс;
* как выжать физический предел производительности сетевых карт InfiniBand до 800 Gbps на каждом хосте и как это помогает зарабатывать рекламе деньги;
* какими знаниями должен обладать обычный бэкендер, использующий CPU-only-хосты и TCP/IP-протоколы, чтобы вкатиться в разработку под на порядки более мощное железо.