Как регулярно строить всё больше ML-пулов на MapReduce, а дежурить все меньше
Архитектура ML / MLOps
Доклад принят в программу конференции
Тезисы
Изначально наши пулы строились набором python-скриптов, запускаемых по cron'у. Когда число таких скриптов перевалило за 100, ситуация вышла из-под контроля. Починка прода стала занимать всё рабочее время, а любая выкатка стала подвигом. Мы решили переписать систему, чтоб исправить это, и теперь поделимся опытом.
Мы расскажем:
* как организуем разработку новых MR-задач, чтобы не тратить много сил на ревью;
* как тестируем новые задачи, чтобы (почти) не бояться выкатывать их в production;
* как выстраиваем дежурство, чтобы не чинить пайплайны все рабочее время.
Сore-разработчик Logos.
Закончила ШАД, 8 лет в Яндексе, раньше занималась ML, теперь инфраструктурой.
Сore-разработчик Logos.
Закончил ШАД, 5 лет в Яндексе, занимаюсь ML и инфраструктурой.
Видео
Другие доклады секции
Архитектура ML / MLOps