Конференция завершена. Ждем вас на HighLoad++ в следующий раз!

Fast, deep and high. Как строить Low Latency-рекомендательный трансформер на миллион RPS

Нейронные сети, искусственный интеллект

Архитектура ML / MLOps

Рекомендации / ML
ML

Доклад принят в программу конференции

Целевая аудитория

Люди, занимающиеся прикладным ML'ем и имеющие отношение к внедрению таких моделей в прод.

Тезисы

Я хочу рассказать о нашей модели пользовательских рекомендаций в рекламной сети Яндекса и некоторых проблемах, которые могут возникнуть при внедрении тяжелых нейросетевых моделей в высоконагруженный продакшн.

Примерный план доклада:
* высокоуровневое описание модели, для чего она нужна и как она работает;
* зачем мы разделили полноценный рекомендательный трансформер с early fusion-подходом на независимые части;
* какие сложности возникают в обеспечении консистентных данных в рантайме и в обучении;
* почему вашу рекомендательную модель нужно регулярно дообучать;
* почему батчевание GPU-вычислений критически важно;
* как разделение СPU- и GPU-частей модели может помочь выиграть еще несколько тысяч RPS на GPU.

Руководитель группы нейросетевой персонализации в Яндексе, долгое время занимался DL'ем в области видео и текстов, последние 2 года занимается исследованиями нейросетевых подходов к задачам рекомендаций.

Яндекс

Яндекс — технологическая компания, которая создаёт инновационные продукты на основе машинного обучения и нейронных сетей. Команда талантливых математиков и программистов развивает самую популярную в России поисковую систему и более 85 пользовательских сервисов, которые помогают людям в повседневных заботах. Основные бизнес-направления: поиск и электронная коммерция, сервисы объявлений, медиасервисы, онлайн-заказ такси и еды, беспилотные автомобили, продукты для рекламодателей и владельцев бизнеса. Яндекс также активно развивает проекты с открытым исходным кодом, например, библиотеку машинного обучения CatBoost.

Видео