Ускорение инференса ML-моделей без лишних трат

BigData и инфраструктура машинного обучения (data engineering)

Оптимизация
Рекомендации / ML
ML

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Глубокий технический доклад про ускорение инференса моделей. Спикер из Домклик расскажет про весь пайплайн работы с RoBERTa и OpenVino, поделится замерами производительности и потребления ресурсов, покажет плюсы и минусы реализации деплоя в прод.

Целевая аудитория

ML-инженеры, backend-разработчики, MLOps-инженеры.

Тезисы

Многие из задач машинного обучения требуют, чтобы ответ от модели был получен как можно быстрее. Обычно ответ на вопрос ускорения модели достаточно прост — задеплоить на ГПУ. Но не всегда это возможно по тем или иным причинам. И что же делать?

В докладе расскажу, как в Домклике используют нейронные сети для голосовых и текстовых ботов. Поговорим о том, почему переезд нейронки на ГПУ — это не всегда лучшее решение. Препарируем трансформер RoBERTa, посмотрим, из чего он состоит и как ускорить выполнение каждой части отдельно. Обсудим, как задеплоить полученные артефакты в прод и какие еще методы ускорения модели и ускорения постобработки можно применить.

В заключение посмотрим, какого результата удалось добиться и стоило ли оно того, а также рассмотрим ситуации, когда без ускорения моделей ну никак не обойтись.

ML-инженер в Домклик. Занимается текстовыми и голосовыми ботами.
До этого делал модели для потоковой обработки видео.

Домклик

Домклик — продуктовая технологическая компания, которая создает высоконагруженные проекты в сфере недвижимости, обеспечивая полный цикл от выбора квартиры, получения ипотеки, взаиморасчетов с продавцом до постпродажного сопровождения.

Видео

Другие доклады секции

BigData и инфраструктура машинного обучения (data engineering)