Крупнейшая профессиональная конференция для разработчиков высоконагруженных систем

Ускорение инференса ML моделей без лишних трат

BigData и инфраструктура машинного обучения (data engineering)

Оптимизация
Рекомендации / ML
ML

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Глубокий технический доклад про ускорение инференса моделей. Спикер из Домклик расскажет про весь пайплайн работы с RoBERTa и OpenVino, поделится замерами производительности и потребления ресурсов покажет плюсы и минусы реализации деплоя в прод.

Целевая аудитория

ML инженеры, Backend разработчики, ML Ops инженеры

Тезисы

Многие из задач машинного обучения требуют чтобы ответ от модели был был получен как можно быстрее. Обычно, ответ на вопрос ускорения модели достаточно прост — задеплоить на ГПУ. Но не всегда это возможно по тем или иным причинам. И что же делать?

В докладе расскажу как в Домклике используют нейронные сети для голосовых и текстовых ботов. Поговорим о том, почему переезд нейронки на ГПУ это не всегда лучшее решение. Препарируем трансформер RoBERTa, посмотрим из чего он состоит и как ускорить выполнение каждой части отдельно. Обсудим как задеплоить полученные артефакты в прод и какие еще методы ускорения модели и ускорения постобработки можно применить.

В заключении посмотрим какого результата удалось добиться и стоило ли оно того и рассмотрим ситуации, когда без ускорения моделей ну никак не обойтись.

ML инженер в Домклик. Занимаюсь текстовыми и голосовыми ботами
До этого делал модели для потоковой обработки видео

Домклик

Домклик — продуктовая технологическая компания, которая создает высоконагруженные проекты в сфере недвижимости, обеспечивая полный цикл от выбора квартиры, получения ипотеки, взаиморасчетов с продавцом до постпродажного сопровождения.

Видео

Другие доклады секции

BigData и инфраструктура машинного обучения (data engineering)