В рамках доклада расскажу, какой путь мы прошли в процессе продуктивизации модели распознавания речи от research-состояния до production-уровня.
Расскажем о способах профилирования и оптимизации инференса на уровне Triton Inference Server: батчинг, масштабирование инстансов моделей и другие трюки, которые мы перепробовали.
Проведём анализ инструментов профилирования нейронных сетей и покажем на примере, как не растеряться во множестве инструментов и с чего начать процесс оптимизации. До какой глубины понимания архитектуры инференса нейронной сети нам пришлось в конечном итоге опуститься, и почему не стоит относиться к модели, как к черному ящику при решении задачи ускорения инференса.