Элеонора Пословская на HighLoad++ 2022

Один Airflow, чтобы управлять всеми: как ловко манипулировать моделями и данными на примере рекомендаций сообществ ВКонтакте

BigData и машинное обучение

Hadoop

ETL

Хранилища

Обработка данных

Доклад отклонён

Целевая аудитория

Data Engineer & Data Science Дата-саентисты, которых мы убедим, что рост метрик зависит не только от хорошо обученной модели, но и от ее регулярного обновления. Они смогут узнать, как реализовать переобучение и деплой моделей малой кровью. Дата-инженеры, которым интересен флоу данных в таких больших компаниях и которым нужно поддерживать пайплайны моделей или данных, при этом совмещая различные data processing environment.

Тезисы

Все презентации конференции

Ежедневно пользователи ВКонтакте генерируют терабайты данных и логов. Поэтому мы активно используем Spark для сбора и предобработки данных и Kubernetes — чтобы выделять ресурсы и обучать модели. Но что делать, когда фаза экспериментов пройдена и обновление модели превращается в рутину, на которую не хочется тратить время?

В докладе расскажу, как наша Big Data управляется при помощи ETL-фреймворка Airflow: от простейших запусков пайплайнов по расписанию, до настройки зависимостей между пайплайнами, трансфера данных между совершенно разными источниками и автоматической генерации новых DAG’ов. И как вместо запуска просто питоновских скриптов перейти на использование Docker-контейнеров в связке с предобработкой данных на Scala-Spark.

На примере одной из моделей рекомендаций сообществ ВКонтакте рассмотрим:

- как мы используем не только исторические логи, но и запрашиваем самую актуальную информацию напрямую с продакшена;
- как Airflow помог нашей команде спокойно спать по ночам, перехватив управление зависимостями от данных и других пайплайнов на себя;
- и как настройка пайплайнов регулярного переобучения наших моделей повысила бизнес-метрики.

Элеонора Пословская

ВКонтакте

Data-Science разработчик ML-команды Сообществ ВКонтакте. Последние несколько лет занимаюсь разработкой нейросетевых моделей в связке с Big Data стеком. Окончила Computer Science Center и имею страсть к плодотворному участию в хакатонах по RecSys.

ВКонтакте

Лучшая соцсеть на территории РФ и не только