Доклад об опыте создания MLOps-платформы на 20+ команд. Расскажем, как выбирали стек, исходя из бизнес-задач и потребностей ML-разработчиков. Поделимся видением, почему для компании нашей структуры подошел в качестве основы платформы именно KubeFlow. Расскажем об этапах раскатки KubeFlow в Яндекс.Облаке и нюансах на каждом этапе. Честно поделимся опытом разработки шаблонов и обучений, деления GPU на команды, интеграции с Vault для хранения секретов и подготовки CI/CD на базе Jenkins и Artifactory.
Закончим на приятной ноте: что мы получили с точки зрения пользовательского опыта и бизнеса — сократили time-to-market выкатки моделей в прод в 1.5 раза при потреблении в 1.9 раза меньше ресурсов.