Создание MLOps-платформы для десятка команд на основе Airflow

Резерв

Распределенные системы
Архитектуры / другое
Непрерывное развертывание и деплой
Непрерывная интеграция
Время разработки и поставки задач
Автоматизация разработки, доставки, эксплуатации
Рекомендации / ML
ML
DevOps / Кубер

Доклад принят в программу конференции

Целевая аудитория

MLOps/ML/Data инженеры, DS специалисты

Тезисы

В рекомендациях Wildberries большое количество DS-ов (200+ сотрудников), много команд и широкий спектр задач: LLM, NLP, Computer Vision и другие. Поэтому необходимо унифицированное решение, чтобы дата саентисты могли в автоматизированном режиме работать с какой-либо платформой: ставить модели на обучение, на инференс и так далее. За основу для MLOps-платформы был взят Airflow в связке с Kubernetes.
В докладе будут рассказано с какими "боттлнеками" приходится сталкиваться при разработке масштабируемой платформы, а также подробно будут рассмотрены решения двух важных задач:
— Масштабируемый способ хранения в сложной топологии секретов Vault и подключение их в Kubernetes поды задач Airflow.
— Защищенный способ реализации запуска задач в нескольких кластерах Kubernetes

Заводской рабочий
MLOps TeamLead
Выстраиваю MLOps платформу в отделе рекомендаций Wildberries. До этого тем же занимался в Яндексе, ВК, Рамблере
Закончил ВШЭ ФКН
Интересный факт: в 2024 году участвовал в выборах депутатов Мосгордумы

Видео