Один Airflow, чтобы управлять всеми: как ловко манипулировать моделями и данными на примере рекомендаций сообществ ВКонтакте
Доклад отклонён
Целевая аудитория
Тезисы
Ежедневно пользователи ВКонтакте генерируют терабайты данных и логов. Поэтому мы активно используем Spark для сбора и предобработки данных и Kubernetes — чтобы выделять ресурсы и обучать модели. Но что делать, когда фаза экспериментов пройдена и обновление модели превращается в рутину, на которую не хочется тратить время?
В докладе расскажу, как наша Big Data управляется при помощи ETL-фреймворка Airflow: от простейших запусков пайплайнов по расписанию, до настройки зависимостей между пайплайнами, трансфера данных между совершенно разными источниками и автоматической генерации новых DAG’ов. И как вместо запуска просто питоновских скриптов перейти на использование Docker-контейнеров в связке с предобработкой данных на Scala-Spark.
На примере одной из моделей рекомендаций сообществ ВКонтакте рассмотрим:
- как мы используем не только исторические логи, но и запрашиваем самую актуальную информацию напрямую с продакшена;
- как Airflow помог нашей команде спокойно спать по ночам, перехватив управление зависимостями от данных и других пайплайнов на себя;
- и как настройка пайплайнов регулярного переобучения наших моделей повысила бизнес-метрики.
Data-Science разработчик ML-команды Сообществ ВКонтакте. Последние несколько лет занимаюсь разработкой нейросетевых моделей в связке с Big Data стеком. Окончила Computer Science Center и имею страсть к плодотворному участию в хакатонах по RecSys.
ВКонтакте
Видео
Другие доклады секции
BigData и машинное обучение