Платформа для создания субтитров на весь UGC в RUTUBE

Data Engineering

Оптимизация производительности
Масштабирование с нуля
ML

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Как обрабатывать UGC-контент без задержки? RUTUBE создал платформу субтитров, которая справляется с любым видео: от 10-секундных роликов до 24-часовых стримов. Собственные ASR-модели, архитектура на Kafka и Triton Server, реальные метрики производительности. Конкретные цифры и решения из production.

Целевая аудитория

ML- и Backend-разработчики, занимающиеся разработкой сервисов, обрабатывающих аудиоданные.

Тезисы

Чтобы обеспечить автоматическими субтитрами миллионы часов UGC-контента, нужно не просто точно распознавать речь — требуется промышленная платформа, способная к экстремальному масштабированию. В RUTUBE мы прошли путь от ограниченного MVP на Whisper до высокопроизводительной системы на собственных моделях, которая сейчас обрабатывает новые пользовательские видео почти без задержки. В докладе раскрою архитектурные решения, позволившие добиться такой пропускной способности при качестве, близком к ручной расшифровке.

Технический стек и архитектурные решения:
* асинхронная обработка через Kafka для управления потоком задач;
* Triton Server для эффективного инференса ML-моделей без OOM на длинных видео;
* кастомный Speech Worker как оркестратор с балансировкой нагрузки;
* собственные ASR-модели на базе FastConformer.

Практические кейсы из production:
* Обработка экстремально длинного контента (24+ часа) без потери производительности.
* Борьба с «галлюцинациями» моделей на музыке, шумах и спецэффектах.
* Горизонтальное масштабирование под переменную нагрузку видеохостинга.
* Работа со сложным аудио: от зашумленных записей до музыкальных клипов.

Что вы узнаете:
* как организовать pipeline-обработки для достижения требуемой пропускной способности;
* конкретные оптимизации для снижения задержек и увеличения throughput;
* стратегии мониторинга и обеспечения отказоустойчивости.

Доклад будет полезен разработчикам, которые сталкиваются с задачами обработки больших объемов аудио/видеоданных, масштабирования ML-сервисов и построения отказоустойчивых систем под высокие нагрузки.

К. т. н. в области обработки аудиосигналов (14+ лет в области). Разработчик и лидер команды речевых технологий RUTUBE. Отвечаю за разработку и эксплуатацию высоконагруженной платформы автоматических субтитров, обрабатывающей десятки тысяч видео в час. Сочетаю 13-летний опыт backend-разработки и 5+ лет практики в Machine Learning для решения промышленных задач.

Видео

Другие доклады секции

Data Engineering