Распознавание речи для субтитров в VK Видео
Нейронные сети, искусственный интеллект
Доклад принят в программу конференции
Тезисы
В докладе расскажу, как внутри устроена технология распознавания речи ВКонтакте. Чем распознавание коротких аудиосообщений отличается от распознавания длинных видео. Что такое речевой домен и почему модель может работать сильно хуже, чем должна, без видимых причин. Покажу, какие модели пробовали, с какими трудностями столкнулись, как решали и что используем в итоге. Как мы боремся с плохими расшифровками и что пришлось применить для матчинга текста с временной шкалой. И в целом — как можно использовать наш опыт, чтобы собрать технологию ASR под свои задачи.
Занимается машинным обучением более 5 лет. Имеет опыт в обработке аудиосигналов и видео. В ВКонтакте занимается развитием платформы Звонков.
Вконтакте
Видео
Другие доклады секции
Нейронные сети, искусственный интеллект