Платформа для создания субтитров на весь UGC в RUTUBE

Data Engineering

Оптимизация производительности
Масштабирование с нуля
ML

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Как обрабатывать UGC-контент без задержки? RUTUBE создал платформу субтитров, которая справляется с любым видео: от 10-секундных роликов до 24-часовых стримов. Собственные ASR-модели, архитектура на Kafka и Triton Server, реальные метрики производительности. Конкретные цифры и решения из production.

Целевая аудитория

ML и Backend разработчики, занимающиеся разработкой сервисов, обрабатывающих аудиоданные.

Тезисы

Чтобы обеспечить автоматическими субтитрами миллионы часов UGC-контента, нужно не просто точно распознавать речь — требуется промышленная платформа, способная к экстремальному масштабированию. В RUTUBE мы прошли путь от ограниченного MVP на Whisper до высокопроизводительной системы на собственных моделях, которая сейчас обрабатывает новые пользовательские видео почти без задержки. В докладе раскрою архитектурные решения, позволившие добиться такой пропускной способности при качестве, близком к ручной расшифровке.

Технический стек и архитектурные решения:
- асинхронная обработка через Kafka для управления потоком задач;
- Triton Server для эффективного инференса ML-моделей без OOM на длинных видео;
- кастомный Speech Worker как оркестратор с балансировкой нагрузки;
- собственные ASR-модели на базе FastConformer.

Практические кейсы из production:
- Обработка экстремально длинного контента (24+ часа) без потери производительности.
- Борьба с "галлюцинациями" моделей на музыке, шумах и спецэффектах.
- Горизонтальное масштабирование под переменную нагрузку видеохостинга.
- Работа со сложным аудио: от зашумленных записей до музыкальных клипов.

Что вы узнаете:
- как организовать pipeline обработки для достижения требуемой пропускной способности;
- конкретные оптимизации для снижения задержек и увеличения throughput;
- стратегии мониторинга и обеспечения отказоустойчивости.

Доклад будет полезен разработчикам, которые сталкиваются с задачами обработки больших объемов аудио/видео данных, масштабирования ML-сервисов и построения отказоустойчивых систем под высокие нагрузки.

К.т.н. в области обработки аудиосигналов (14+ лет в области). Разработчик и лидер команды речевых технологий RUTUBE. Отвечаю за разработку и эксплуатацию высоконагруженной платформы автоматических субтитров, обрабатывающей десятки тысяч видео в час. Сочетаю 13-летний опыт backend-разработки и 5+ лет практики в Machine Learning для решения промышленных задач.

Видео

Другие доклады секции

Data Engineering