От ошибок к успеху: эволюция ML Feature Store в Flocktory

BigData и инфраструктура машинного обучения (data engineering)

Python
Scala
Machine Learning
ML
Обработка данных
YDB

Доклад принят в программу конференции

Мнение Программного комитета о докладе

В докладе описаны предпосылки создания, опыт разработки и внедрения собственного ML Feature Store. Описывается общее архитектурное решение, которое вы сможете адаптировать под свой стек. Итоговое решение базируется на Trino, S3, YDB, Spark, Python.

Целевая аудитория

Data Engineers, ML Engineers, ML Team Leads.

Тезисы

Расскажу об опыте внедрения ML Feature Store в нашей компании. Мы проделали большой путь от использования стандартных backend-хранилищ до создания собственного Feature Store, оптимизированного для нужд Data Science- и Machine Learning-проектов.

Мы изучили существующие фреймворки (Feast, Tecton, Featureform) и поделимся, почему из коробки не удастся получить готовый ML Feature Store.

Методом проб и ошибок мы нашли простое решение, и на его внедрение у нас ушло 3 месяца одного разработчика. Хотим донести, почему мы делали конкретные решения на каждом шаге внедрения.

Наш ML Feature Store ускорил время вывода фич для ML-алгоритмов с трёх месяцев до одного дня.

Мы использовали Trino / S3, Yandex DB, Spark, Python, но покажем общее архитектурное решение, и вы сможете адаптировать его под свой стек. Сейчас наше решение держит нагрузку ~1.5К RPS на чтение, хранит > 200 GB данных, из них ежедневно обновляется около 15 GB, время ответа < 80 ms. Путём горизонтального масштабирования планируем нарастить эти цифры до 30К RPS, 1 TB данных с сохранением SLA.

ML engineer команды AI в компании Flocktory. Более 7 лет в Data Intensive направлении. Главная задача — предоставлять отлично работающие инструменты для создания и использования качественных моделей, которые приносят реальный результат.

Flocktory

Flocktory — продуктовая компания с собственной разработкой. Помогают расти сотням B2C-продуктов, которые полезны людям. И делают это с помощью собственной SaaS-платформы и глубокой экспертизы в E-Commerce-маркетинге.

Видео

Другие доклады секции

BigData и инфраструктура машинного обучения (data engineering)