В мире высоких нагрузок вывод ML-моделей в продакшен требует тщательного выбора архитектуры: батч, near real-time (NRT) или real-time (RT). Как Machine Learning Engineer (MLE) с опытом в MWS, я поделюсь практическими инсайтами на основе реальных кейсов из онлайн-кинотеатра KION. Мы разберём, кто такой MLE — не только разработчик моделей, но и специалист по их деплою, мониторингу и масштабированию под пиковые нагрузки до 600 RPS.
На примере персонализации витрин контента обсудим оффлайн-схемы (батч): ежедневные обновления автополок с градиентным бустингом, преимущества стабильности и простоты, но с рисками устаревших данных. Перейдём к NRT: стриминг трендов через Kafka для свежести рекомендаций, баланс ML и бизнес-правил (>50, включая дедупликацию). Для RT раскрою, что нужно — быстрый стек (FastAPI, Python 3.11), runtime-компоновка в Blender под 160 мс, A/B-эксперименты с "playoff" шести моделей, приводящие к +2-5% роста метрик смотрения.
Особое внимание подводным камням: "моргание" контента, нагрузка на систему, баланс персонализации и новизны (ежедневный мониторинг). Завершим универсализацией: платформенный подход с MLOps для гибридных архитектур, "полка как сервис" и сеточная структура рекомендаций (DSSM-векторы). Узнайте, как выбирать схему, избегать ошибок и строить масштабируемые ML-системы. Идеально для молодых ML-специалистов, ищущих путь от модели к продакшену!