Пайплайн для расшифровки речи в миллионах видео в сутки: инфраструктура автоматической генерации субтитров в VK Видео

Архитектуры, масштабируемость

Архитектурный кейс

23 сентября, 11:10, «Зал 03. Синий»

Google Outlook Apple

Доклад принят в программу конференции

Целевая аудитория

Бэкенд-разработчики и инженеры инфраструктуры проектов, использующих ML-модели.

Тезисы

Скачать презентацию Все презентации конференции

Два года назад ВКонтакте представила функцию распознавания речи в голосовых сообщениях. С тех пор мы не только улучшали ее качество, но и искали возможности применить ее в других наших сервисах. Но разные сервисы в большом проекте могут иметь различия в инфраструктуре, подходах и требованиях.

В докладе расскажу, как мы адаптировали существующий пайплайн по распознаванию речи для работы в инфраструктуре VK Видео, внедряли новые компоненты и оптимизировали получившееся решение: * как инкапсуляция и переиспользование компонентов на C++ помогли найти компромисс между максимальным переиспользованием существующего решения и минимизацией трафика между серверами; * как реализация в виде нативного процесса позволила гибко и независимо масштабировать пайплайн в инфраструктуре обработки видео и распространить распознавание речи на все популярные и загружаемые ролики; * как выбирали формат субтитров и способ их отображения на клиентах; * с какими неожиданностями при доставке контента через CDN столкнулись после запуска и как смогли все быстро поправить.

А также какие возможности для развития продукта открывает распознавание речи, встроенное в пайплайн обработки видео.

Филипп Мальковский

ВКонтакте

Программист-разработчик в команде VK Видео.

ВКонтакте

ВКонтакте — крупнейшая социальная сеть в России и странах СНГ. Миссия ВКонтакте — соединять людей, сервисы и компании, создавая простые и удобные инструменты коммуникации.