Распознавание речи для субтитров в VK Видео

Нейронные сети, искусственный интеллект

Речь

Machine Learning

Доклад принят в программу конференции

Целевая аудитория

Специалисты по ML в любой области.

Тезисы

В докладе расскажу, как внутри устроена технология распознавания речи ВКонтакте. Чем распознавание коротких аудиосообщений отличается от распознавания длинных видео. Что такое речевой домен и почему модель может работать сильно хуже, чем должна, без видимых причин. Покажу, какие модели пробовали, с какими трудностями столкнулись, как решали и что используем в итоге. Как мы боремся с плохими расшифровками и что пришлось применить для матчинга текста с временной шкалой. И в целом — как можно использовать наш опыт, чтобы собрать технологию ASR под свои задачи.

Виталий Шутов

VK, ВКонтакте

Занимается машинным обучением более 7 лет. Имеет опыт в обработке аудиосигналов и видео. Во ВКонтакте занимается развитием технологий аудиообработки.

VK, ВКонтакте

ВКонтакте — крупнейшая социальная сеть в России и странах СНГ. Миссия ВКонтакте — соединять людей, сервисы и компании, создавая простые и удобные инструменты коммуникации. VK — это более 200 технологичных проектов, больше 15 000 сотрудников и миллион возможностей проявить себя. Делают современные и быстрые интернет-сервисы, доступные каждому.

Видео