Сервис распознавания речи. От моделей до production-решения
Доклад отозван
Целевая аудитория
Тезисы
В докладе будет рассказ о внутреннем устройстве нашего сервиса распознавания речи (https://voicekit.tinkoff.ru/).
Перед нами стояла задача — обработка ~7000 параллельных аудиопотоков для распознавания, а также распознавание не в потоке с RTF (Real Time Factor) < 0.25, используя при этом ограниченные ресурсы GPU.
Расскажу о том, зачем вообще необходимо распознавание речи, дам обзор основных модулей нашего сервиса, углублюсь в технические детали реализации:
* какими метриками можно оперировать в потоковых аудиосервисах (SPS, RTF, Head/Tail latency);
* как переписать бэкенд с Python на Go из-за отсутствия в Python хорошей многопоточности;
* как перевести кодовую базу на go-pipelines (https://blog.golang.org/pipelines), чтобы каждый этап обработки аудио проходил асинхронно;
* как развертывать deep-learning-модели в проде при помощи tf-serving, балансировки grpc-запросов через envoy и бесшовной выкатки новых моделей;
* как правильно настраивать батчинг моделей, чтобы максимально утилизировать GPU.
Техлид voicekit Тинькофф.
Тинькофф
Видео
Другие доклады секции
Нейронные сети, искусственный интеллект