Построение ML-инфраструктуры (MLOps)
Доклад принят в программу конференции
Целевая аудитория
Тезисы
ML в продакшне уже не роскошь, а необходимость. Поэтому инструменты MLOps так важны для бизнеса.
Поговорим про:
* подготовку широких датасетов на потоке из миллиардов примеров;
* continual learning в рекомендательных системах;
* построение model storage и feature store;
* применение CatBoost в рантайме, тюнинг качества бустинга и использование GPU для его обучения.
Руководитель группы модернизации нейросетей.
Отвечает за разработку и поддержку Ads_PyTorch — фреймворка для обучения быстрых и глубоких онлайн-моделей в рекомендательных системах в отделе рекламы Яндекса. Разрабатывает архитектуру глубоких моделей, отвечающих всем требованиям к таймингам/latency на инференсе c максимальным качеством прогноза.
Подтемы для консультации:
* continual (вообще оно называется online) deep learning в рекомендательных системах;
* разработка фреймворков для обучения continual-моделей;
* построение правильных архитектур моделей с учётом всех требований в рантайме.
Яндекс
Руководитель группы развития инструментов поставки данных.
Занимается ML и инфраструктурой. Закончил ШАД. В Яндексе шесть лет.
Подтемы для консультации:
* пайплайны для построения регулярных датасетов;
* их CI/CD и тестирование;
* data lineage;
* релизный процесс для моделей.
Яндекс
Руководитель службы подготовки и анализа больших данных.
Занимается подготовкой данных: от отчётности для инвесторов до данных поиска и рекламы. Отвечает за сотни петабайт данных. Знает, как устроено многое в продукте, инфраструктуре, маркетинге и финансах. Работала с юристами и бухгалтерами и умеет объединять эти подразделения инфраструктурой и данными. Разбирает сложные и запутанные схемы и делает всю архитектуру процессингов в разы проще. В Яндексе больше 10 лет.
Подтемы для консультации:
* сбор и подготовка данных для ML от сбора данных с рантаймов до формирования train pools;
* создание feature store;
* переход от batch-процессинга фичей к процессингу в real-time.
Яндекс
Руководитель группы разработки ML-инфраструктуры для больших данных.
Занимается большими данными и MLOps. В IT больше восьми лет.
Подтемы для консультации:
* работа с данными;
* построение feature store.
Яндекс
Младший разработчик.
Занимается разработкой и поддержкой ML-платформы в Яндексе. Эта система позволяет ML-специалистам из разных подразделений регистрировать модели, облегчать процессы запуска сценариев моделей, сравнивать метрики, запускать эксперименты, легко находить и использовать датасеты для моделей. Учится на 4-м курсе НИТУ «МИСиС».
Подтемы для консультации:
* построение пайплайнов ML и их применения;
* инфраструктурные вопросы в ML;
* MLOps-инструменты.
Яндекс
Разработчик.
Занимается разработкой и поддержкой ML-платформы внутри Яндекса. Закончила ШАД, учится в магистратуре ВШЭ.
Подтемы для консультации:
* построение пайплайнов ML и их применения;
* инфраструктурные вопросы в ML;
* всё, что связано с MLOps-инструментами.
Яндекс
ML Brand Director Яндекс Поиска.
Развивает бренд машинного обучения Яндекса. До этого занимался ML в Lamoda, Mail.ru и HeadHunter. Преподавал в НИУ ВШЭ и МГТУ им. Н. Э. Баумана. Один из создателей сообщества Open Data Science. Помогает организовывать IT-конференции: HighLoad++, PyCon, DUMP, DataFest.
Яндекс
Видео
Другие доклады секции
Экспертная зона