Как регулярно строить всё больше ML-пулов на MapReduce, а дежурить все меньше
Доклад принят в программу конференции
Целевая аудитория
Тезисы
Изначально наши пулы строились набором python-скриптов, запускаемых по cron'у. Когда число таких скриптов перевалило за 100, ситуация вышла из-под контроля. Починка прода стала занимать всё рабочее время, а любая выкатка стала подвигом. Мы решили переписать систему, чтоб исправить это, и теперь поделимся опытом.
Мы расскажем:
* как организуем разработку новых MR-задач, чтобы не тратить много сил на ревью;
* как тестируем новые задачи, чтобы (почти) не бояться выкатывать их в production;
* как выстраиваем дежурство, чтобы не чинить пайплайны все рабочее время.
Сore-разработчик Logos.
Закончила ШАД, 8 лет в Яндексе, раньше занималась ML, теперь инфраструктурой.
Яндекс
Руководитель группы развития инструментов поставки данных.
Занимается ML и инфраструктурой. Закончил ШАД. В Яндексе шесть лет.
Подтемы для консультации:
* пайплайны для построения регулярных датасетов;
* их CI/CD и тестирование;
* data lineage;
* релизный процесс для моделей.
Яндекс
Видео
Другие доклады секции
BigData и машинное обучение