Профилирование и ускорение модели распознавания речи Conformer Transducer

Нейронные сети, искусственный интеллект

Доклад отклонён

Мнение Программного комитета о докладе

Вы умеете профилировать нейросеть? Большинство людей не умеет. В лучшем случае они профилируют обвязку и оптимизируют количество вызовов инференса. А из этого доклада вы узнаете, как забраться в "кишочки" нейросетевой модели и что-то поправить там. Интересно же!

Целевая аудитория

ML-инженеры, Data-сайентисты, разработчики, интересующиеся инференсом нейронных сетей.

Тезисы

В рамках доклада расскажу, какой путь мы прошли в процессе продуктивизации модели распознавания речи от research-состояния до production-уровня.

Расскажем о способах профилирования и оптимизации инференса на уровне Triton Inference Server: батчинг, масштабирование инстансов моделей и другие трюки, которые мы перепробовали.

Проведём анализ инструментов профилирования нейронных сетей и покажем на примере, как не растеряться во множестве инструментов и с чего начать процесс оптимизации. До какой глубины понимания архитектуры инференса нейронной сети нам пришлось в конечном итоге опуститься, и почему не стоит относиться к модели, как к черному ящику при решении задачи ускорения инференса.

ML-архитектор в компании MTS AI в команде распознавания и синтеза речи (продукт Audiogram), отвечает за архитектуру инференса нейронных сетей. Последние 5 лет работает в сфере ML на стыке разработки и Data Science, находится в постоянном поиске лучшего варианта инференса нейронных сетей. Интересуется низкоуровневым устройством инференса нейронных сетей, чтобы понимать, как они работают на железе и повышать утилизацию gpu-серверов.

MTS AI

MTS AI — это дочерняя компания МТС и Центра компетенций в области искусственного интеллекта. Создают продукты и оптимизируют процессы как внутри МТС, так и на внешнем рынке. В портфеле — решения в области компьютерного зрения, обработки естественного языка и edge computing.

Видео