C форматированием тут https://docs.google.com/document/d/1tpNvZ-fr4X8L_BHa1hO9hgGSj-ANxny1SABtWwVitSY/edit?usp=sharing
====== дублирую из дока
Описание доклада
В докладе разберем как построить свое решение Feature Platform на конкретной задаче. Посмотрим из каких компонент состоит платформа и что стоит учитывать при ее проектировании. Сформулируем свои требования к системе, посмотрим чем богат рынок, и соберем MVP на основе конкретных возможностей. Ответим на вопросы: как переиспользовать данные для трейна и инференса моделей, как ускорить обработку данных и обеспечить высокие показатели rps и latency online предсказания.
Тезисный план доклада (30 минут, зеленым выделены интересные для обсуждения темы)
2m Предисловие - кто мы и чего хотим
Мы - Домклик команда оценки недвижимости
Хотим - Построить надежное и масштабируемое решение, которое ускорит разработку наших ML-моделей.
3m Почему именно Feature Platform
здесь расскажем какая у нас задача - есть много источников данных и много витрин, есть большое количество пайплайнов по предобработке данных и генерации фичей, а также много моделей - нужно как переиспользовать данные для трейна и инференса моделей, так как ускорить обработку данных и обеспечить высокие показатели rps и latency online предсказания;
6m Что стоит учитывать при проектировании архитектуры Feature Platform
- Сочетание нескольких видов архитектур
LSA (Layered Scalable Architecture) архитектура и микросервисная архитектуры в продакшене - вспомним основные концепции
разные профили нагрузки - OLAP & OLTP
разные уровни критичности систем
- Пройдемся по составляющим платформы - Feature Store, Feature Engine, Feature Management, Feature Monitoring
- Выдвинем свои требования к новой системе:
не допиливать опенсорс,
выдерживать нагрузку на предсказание в 250 rps,
разные модели должны быть изолированы,
данные (инкремент) должны обрабатываться в пределах часа,
источники должны легко добавляться,
источники данных должны легко меняться,
доставка данных должна существовать как изолированный процесс;
7m Верхнеуровнево разберем рыночные решения Feature Platform
- здесь расскажем о том, на опенсорс мы смотрели - feast, featureform, какие платные решения есть - tecton, hopsworks и другие;
- почему ничего не выбрали - затратно подключать к своей инфраструктуре во внутреннем контуре без облака, не хватило модульности для подключения отдельных компонент, а также не хватило возможности выбрать SQL-based обработку данных; не хотелось тратить время и разворачивать хадуп при наличии не настолько большого объема данных; а фреймворки feast, featureform слишком огромны, хочется видеть более легковесную историю, которая может встраиваться максимально бесшовно.
6m Архитектура в идеальном и реальном мирах:
- покажем архитектуру контура данных для ML, которую хотим видеть в перспективе - схема
- расскажем чего не хватило на старте в наличии - не хватило механизмов Data Lake по подключению сырых данных, чтобы уйти от зависимости изменения схем данных владельцем БД, и формировать историчность без допиливания; не хватило механизмов доставки данных из одной БД в другую БД;
- покажем какое решение выбрали для запуска MVP и перезапуска всех моделей - остановились на использовании архитектурного подхода LSA, собрав детальный слой и прикладные витрины.
- расскажем про архитектуру продакшн контура в части данных,
сравним скорость работы и объемы старого и нового решений
4m Компетентность и культура
- обсудим какие компетенции нужны в команде, чтобы собрать такой продукт - у нас есть дата-инженер и архитектор данных,
- поговорим про слова data quality, data lineage, data observability, data catalog, data platform в контексте Feature Platform;
- обсудим какой уровень культуры работы с данными в компании необходим - хотелось бы видеть data platform в компании, но для старта подойдет и следующий набор: нужен каталог данных, разметка данных по бизнес-доменам, независимость от миграций схем владельцем, а также понимание, что данные это продукт.
3m Метрики на которые мы влияем и как
- Time-2-market в разработке и проверке гипотез,
- Time-2-market в деливери моделей на прод,
- Надежность - мониторинг данных и расчетов