Крупнейшая профессиональная конференция для разработчиков высоконагруженных систем

Архитектура распределенного онлайн обучения нейронных сетей

Нейронные сети и искусственный интеллект (data science)

Фреймворки
C/C++
Python
Оптимизация производительности
Распределенные системы
Machine Learning
Рекомендации / ML

Доклад принят в программу конференции

Целевая аудитория

Data Science исследователи и бекенд разработчики для ML систем, занимающиеся обучением нейронных сетей в рекомендательных системах или другими задачами с нестационарными распределениямм данных, где модели нужно постоянно дообучать

Тезисы

Доклад делается в первую очередь про большие рекомендательные системы, однако слушатель может найти для себя пользу и в других приложениях, в которых свойства задачи похожи. Рекомендательная система - это ML задача со следующими свойствами:
1. Имеется постоянный поток новых данных и нестационарное распределение в этих данных. На примере рекламы в Яндексе: поведение старых пользователей меняется, рекламные кампании меняются, все меняется. Из этого следует необходимость постоянно дообучать эти модели
2. В крупных рекомендательных могут быть огромные объёмы данных (десятки TB в сутки)
3. Очень разреженные признаки. Как правило, в рекомендательных системах используются разреженных эмбеддинги
4. Необходимость сочетать эффективные реализации с гибкостью для ML исследователя

Пункты 2 и 4 накладывают жёсткие требования по производительности и одновременно требования про

Я расскажу, как в отделе качества рекламы в Яндексе подошли к построению распределенного онлайн обучения. Мы коснёмся следующих вопросов:
1. Сортированное распределенное чтение данных - как удобно для пользователя сохранить упорядоченность чтения датасетов вне зависимости от числа gpu, выравнивание итераторов
2. Работа с разреженными данными и с эмбеддингами. Как эффективно обрабатывать разреженных эмбеддинги, гетерогенное обучение cpu/gpu, как эффективно прореживать эмбеддинги без потерь к качеству, как эффективно реализовывать затухание фичей, как правильно шардировать разреженные параметры моделей
3. Эффективная эмуляция онлайн обучения на исторических данных - правильный online evaluation, детали реализации
4. Различия в предобучении онлайн моделей на исторических данных и при выкатке на регулярное дообучение

Разработчик ML-инфраструктуры рекомендательных систем. Занимался как разработкой архитектур и внедрением нейронных сетей, так и разработкой фреймворков их обучения.

Яндекс

Яндекс — технологическая компания, которая создаёт инновационные продукты на основе машинного обучения и нейронных сетей. Команда талантливых математиков и программистов развивает самую популярную в России поисковую систему и более 85 пользовательских сервисов, которые помогают людям в повседневных заботах.

Видео