Платформа для создания субтитров на весь UGC в RUTUBE
Доклад принят в программу конференции
Целевая аудитория
Тезисы
Чтобы обеспечить автоматическими субтитрами миллионы часов UGC-контента, нужно не просто точно распознавать речь — требуется промышленная платформа, способная к экстремальному масштабированию. В RUTUBE мы прошли путь от ограниченного MVP на Whisper до высокопроизводительной системы на собственных моделях, которая сейчас обрабатывает новые пользовательские видео почти без задержки.
В докладе раскрою архитектурные решения, позволившие добиться такой пропускной способности: асинхронную обработку задач через Kafka, эффективный инференс моделей с помощью Triton Server, оркестрацию ресурсов через кастомный Speech Worker.
Вы узнаете, как мы:
- Научились без проблем обрабатывать видео любой продолжительности (вплоть до 24+ часов).
- Добились качества автоматических субтитров, сопоставимого с ручными, благодаря борьбе с «галлюцинациями» и NLP-анализу.
- Обеспечили горизонтальное масштабирование под любую нагрузку на видеохостинг.
Опыт будет полезен для ML- и бэкенд-разработчиков, работающих над сервисами обработки больших объемов аудиоданных в реальном времени.
К.т.н. в области обработки аудиосигналов (14+ лет в области). Разработчик и лидер команды речевых технологий RUTUBE. Отвечаю за разработку и эксплуатацию высоконагруженной платформы автоматических субтитров, обрабатывающей десятки тысяч видео в час. Сочетаю 13-летний опыт backend-разработки и 5+ лет практики в Machine Learning для решения промышленных задач.