Конференция завершена. Ждем вас на HighLoad++ в следующий раз!

Fast, deep and high. Как строить Low Latency-рекомендательный трансформер на миллион RPS

Архитектура ML / MLOps

Доклад принят в программу конференции

Тезисы

Я хочу рассказать о нашей модели пользовательских рекомендаций в рекламной сети Яндекса и некоторых проблемах, которые могут возникнуть при внедрении тяжелых нейросетевых моделей в высоконагруженный продакшн.

Примерный план доклада:
* высокоуровневое описание модели, для чего она нужна и как она работает;
* зачем мы разделили полноценный рекомендательный трансформер с early fusion-подходом на независимые части;
* какие сложности возникают в обеспечении консистентных данных в рантайме и в обучении;
* почему вашу рекомендательную модель нужно регулярно дообучать;
* почему батчевание GPU-вычислений критически важно;
* как разделение СPU- и GPU-частей модели может помочь выиграть еще несколько тысяч RPS на GPU.

Руководитель группы нейросетевой персонализации в Яндексе, долгое время занимался DL'ем в области видео и текстов, последние 2 года занимается исследованиями нейросетевых подходов к задачам рекомендаций.

Яндекс

Видео