Fast, deep and high. Как строить Low Latency-рекомендательный трансформер на миллион RPS
Доклад принят в программу конференции
Целевая аудитория
Тезисы
Я хочу рассказать о нашей модели пользовательских рекомендаций в рекламной сети Яндекса и некоторых проблемах, которые могут возникнуть при внедрении тяжелых нейросетевых моделей в высоконагруженный продакшн.
Примерный план доклада:
* высокоуровневое описание модели, для чего она нужна и как она работает;
* зачем мы разделили полноценный рекомендательный трансформер с early fusion-подходом на независимые части;
* какие сложности возникают в обеспечении консистентных данных в рантайме и в обучении;
* почему вашу рекомендательную модель нужно регулярно дообучать;
* почему батчевание GPU-вычислений критически важно;
* как разделение СPU- и GPU-частей модели может помочь выиграть еще несколько тысяч RPS на GPU.
Руководитель группы нейросетевой персонализации в Яндексе, долгое время занимался DL'ем в области видео и текстов, последние 2 года занимается исследованиями нейросетевых подходов к задачам рекомендаций.
Яндекс
Видео
Другие доклады секции
Нейронные сети, искусственный интеллект