Построение ML-инфраструктуры (MLOps)

Экспертная зона

Экспертная зона

Доклад принят в программу конференции

Целевая аудитория

--

Тезисы

ML в продакшне уже не роскошь, а необходимость. Поэтому инструменты MLOps так важны для бизнеса.

Поговорим про:
* подготовку широких датасетов на потоке из миллиардов примеров;
* continual learning в рекомендательных системах;
* построение model storage и feature store;
* применение CatBoost в рантайме, тюнинг качества бустинга и использование GPU для его обучения.

Руководитель группы модернизации нейросетей.

Отвечает за разработку и поддержку Ads_PyTorch — фреймворка для обучения быстрых и глубоких онлайн-моделей в рекомендательных системах в отделе рекламы Яндекса. Разрабатывает архитектуру глубоких моделей, отвечающих всем требованиям к таймингам/latency на инференсе c максимальным качеством прогноза.
Подтемы для консультации:
* continual (вообще оно называется online) deep learning в рекомендательных системах;
* разработка фреймворков для обучения continual-моделей;
* построение правильных архитектур моделей с учётом всех требований в рантайме.

Яндекс

Яндекс

Руководитель группы развития инструментов поставки данных.

Занимается ML и инфраструктурой. Закончил ШАД. В Яндексе шесть лет.
Подтемы для консультации:
* пайплайны для построения регулярных датасетов;
* их CI/CD и тестирование;
* data lineage;
* релизный процесс для моделей.

Яндекс

Яндекс

Руководитель службы подготовки и анализа больших данных.

Занимается подготовкой данных: от отчётности для инвесторов до данных поиска и рекламы. Отвечает за сотни петабайт данных. Знает, как устроено многое в продукте, инфраструктуре, маркетинге и финансах. Работала с юристами и бухгалтерами и умеет объединять эти подразделения инфраструктурой и данными. Разбирает сложные и запутанные схемы и делает всю архитектуру процессингов в разы проще. В Яндексе больше 10 лет.
Подтемы для консультации:
* сбор и подготовка данных для ML от сбора данных с рантаймов до формирования train pools;
* создание feature store;
* переход от batch-процессинга фичей к процессингу в real-time.

Яндекс

Яндекс

Руководитель группы разработки ML-инфраструктуры для больших данных.

Занимается большими данными и MLOps. В IT больше восьми лет.
Подтемы для консультации:
* работа с данными;
* построение feature store.

Яндекс

Яндекс

Младший разработчик.

Занимается разработкой и поддержкой ML-платформы в Яндексе. Эта система позволяет ML-специалистам из разных подразделений регистрировать модели, облегчать процессы запуска сценариев моделей, сравнивать метрики, запускать эксперименты, легко находить и использовать датасеты для моделей. Учится на 4-м курсе НИТУ «МИСиС».
Подтемы для консультации:
* построение пайплайнов ML и их применения;
* инфраструктурные вопросы в ML;
* MLOps-инструменты.

Яндекс

Яндекс

Разработчик.

Занимается разработкой и поддержкой ML-платформы внутри Яндекса. Закончила ШАД, учится в магистратуре ВШЭ.
Подтемы для консультации:
* построение пайплайнов ML и их применения;
* инфраструктурные вопросы в ML;
* всё, что связано с MLOps-инструментами.

Яндекс

Яндекс

ML Brand Director Яндекс Поиска.

Развивает бренд машинного обучения Яндекса. До этого занимался ML в Lamoda, Mail.ru и HeadHunter. Преподавал в НИУ ВШЭ и МГТУ им. Н. Э. Баумана. Один из создателей сообщества Open Data Science. Помогает организовывать IT-конференции: HighLoad++, PyCon, DUMP, DataFest.

Яндекс

Яндекс — технологическая компания, которая создает инновационные продукты на основе машинного обучения и нейронных сетей. Команда талантливых математиков и программистов развивает самую популярную в России поисковую систему и более 85 пользовательских сервисов, которые помогают людям в повседневных заботах.

Видео

Другие доклады секции

Экспертная зона