В мире высоких нагрузок вывод ML-моделей в продакшн требует тщательного выбора архитектуры: батч, near real-time (NRT) или real-time (RT). Как Machine Learning Engineer (MLE) с опытом в MWS, я поделюсь практическими инсайтами на основе реальных кейсов из онлайн-кинотеатра KION. Мы разберем, кто такой MLE — не только разработчик моделей, но и специалист по их деплою, мониторингу и масштабированию под пиковые нагрузки до 600 RPS.
На примере персонализации витрин контента обсудим офлайн-схемы (батч): ежедневные обновления автополок с градиентным бустингом, преимущества стабильности и простоты, но с рисками устаревших данных. Перейдем к NRT: стриминг трендов через Kafka для свежести рекомендаций, баланс ML и бизнес-правил (>50, включая дедупликацию). Для RT раскрою что нужно — быстрый стек (FastAPI, Python 3.11), runtime-компоновка в Blender под 160 мс, A/B-эксперименты с «playoff» шести моделей, приводящие к +2-5% роста метрик смотрения.
Особое внимание подводным камням: «моргание» контента, нагрузка на систему, баланс персонализации и новизны (ежедневный мониторинг). Завершим универсализацией: платформенный подход с MLOps для гибридных архитектур, «полка как сервис» и сеточная структура рекомендаций (DSSM-векторы). Узнайте, как выбирать схему, избегать ошибок и строить масштабируемые ML-системы. Идеально для молодых ML-специалистов, ищущих путь от модели к продакшну!