Чтобы обеспечить автоматическими субтитрами миллионы часов UGC-контента, нужно не просто точно распознавать речь — требуется промышленная платформа, способная к экстремальному масштабированию. В RUTUBE мы прошли путь от ограниченного MVP на Whisper до высокопроизводительной системы на собственных моделях, которая сейчас обрабатывает новые пользовательские видео почти без задержки. В докладе раскрою архитектурные решения, позволившие добиться такой пропускной способности при качестве, близком к ручной расшифровке.
Технический стек и архитектурные решения:
* асинхронная обработка через Kafka для управления потоком задач;
* Triton Server для эффективного инференса ML-моделей без OOM на длинных видео;
* кастомный Speech Worker как оркестратор с балансировкой нагрузки;
* собственные ASR-модели на базе FastConformer.
Практические кейсы из production:
* Обработка экстремально длинного контента (24+ часа) без потери производительности.
* Борьба с «галлюцинациями» моделей на музыке, шумах и спецэффектах.
* Горизонтальное масштабирование под переменную нагрузку видеохостинга.
* Работа со сложным аудио: от зашумленных записей до музыкальных клипов.
Что вы узнаете:
* как организовать pipeline-обработки для достижения требуемой пропускной способности;
* конкретные оптимизации для снижения задержек и увеличения throughput;
* стратегии мониторинга и обеспечения отказоустойчивости.
Доклад будет полезен разработчикам, которые сталкиваются с задачами обработки больших объемов аудио/видеоданных, масштабирования ML-сервисов и построения отказоустойчивых систем под высокие нагрузки.