Конференция завершена. Ждем вас на HighLoad++ Foundation в следующий раз!

Как регулярно строить всё больше ML-пулов на MapReduce, а дежурить все меньше

Архитектура ML / MLOps

Доклад принят в программу конференции

Тезисы

Изначально наши пулы строились набором python-скриптов, запускаемых по cron'у. Когда число таких скриптов перевалило за 100, ситуация вышла из-под контроля. Починка прода стала занимать всё рабочее время, а любая выкатка стала подвигом. Мы решили переписать систему, чтоб исправить это, и теперь поделимся опытом.

Мы расскажем:
* как организуем разработку новых MR-задач, чтобы не тратить много сил на ревью;
* как тестируем новые задачи, чтобы (почти) не бояться выкатывать их в production;
* как выстраиваем дежурство, чтобы не чинить пайплайны все рабочее время.

Сore-разработчик Logos.

Закончила ШАД, 8 лет в Яндексе, раньше занималась ML, теперь инфраструктурой.

Сore-разработчик Logos.

Закончил ШАД, 5 лет в Яндексе, занимаюсь ML и инфраструктурой.

Видео