Конференция завершена. Ждем вас на HighLoad++ в следующий раз!

Сервис распознавания речи. От моделей до production-решения

Нейронные сети, искусственный интеллект

Компьютерное зрение / ML поверх видео

Доклад отозван

Тезисы

В докладе будет рассказ о внутреннем устройстве нашего сервиса распознавания речи (https://voicekit.tinkoff.ru/).

Перед нами стояла задача — обработка ~7000 параллельных аудиопотоков для распознавания, а также распознавание не в потоке с RTF (Real Time Factor) < 0.25, используя при этом ограниченные ресурсы GPU.

Расскажу о том, зачем вообще необходимо распознавание речи, дам обзор основных модулей нашего сервиса, углублюсь в технические детали реализации:
* какими метриками можно оперировать в потоковых аудиосервисах (SPS, RTF, Head/Tail latency);
* как переписать бэкенд с Python на Go из-за отсутствия в Python хорошей многопоточности;
* как перевести кодовую базу на go-pipelines (https://blog.golang.org/pipelines), чтобы каждый этап обработки аудио проходил асинхронно;
* как развертывать deep-learning-модели в проде при помощи tf-serving, балансировки grpc-запросов через envoy и бесшовной выкатки новых моделей;
* как правильно настраивать батчинг моделей, чтобы максимально утилизировать GPU.

Целевая аудитория

- Разработчики и ML-инженеры, которые думают об интеграции нейросетей в prod. - Инженеры, заинтересованные в собственном движке распознавания речи.

Техлид voicekit Тинькофф.

Тинькофф

Великолепная компания Тинькофф.

Видео