Пайплайн для расшифровки речи в миллионах видео в сутки: инфраструктура автоматической генерации субтитров в VK Видео

Архитектуры, масштабируемость

Доклад принят в программу конференции

Тезисы

Два года назад ВКонтакте представила функцию распознавания речи в голосовых сообщениях. С тех пор мы не только улучшали ее качество, но и искали возможности применить ее в других наших сервисах. Но разные сервисы в большом проекте могут иметь различия в инфраструктуре, подходах и требованиях.

В докладе расскажу, как мы адаптировали существующий пайплайн по распознаванию речи для работы в инфраструктуре VK Видео, внедряли новые компоненты и оптимизировали получившееся решение:
* как инкапсуляция и переиспользование компонентов на C++ помогли найти компромисс между максимальным переиспользованием существующего решения и минимизацией трафика между серверами;
* как реализация в виде нативного процесса позволила гибко и независимо масштабировать пайплайн в инфраструктуре обработки видео и распространить распознавание речи на все популярные и загружаемые ролики;
* как выбирали формат субтитров и способ их отображения на клиентах;
* с какими неожиданностями при доставке контента через CDN столкнулись после запуска и как смогли все быстро поправить.

А также какие возможности для развития продукта открывает распознавание речи, встроенное в пайплайн обработки видео.

Программист-разработчик в команде VK Видео.

ВКонтакте

Социальная сеть.

Видео

Другие доклады секции

Архитектуры, масштабируемость