Многие из задач машинного обучения требуют чтобы ответ от модели был был получен как можно быстрее. Обычно, ответ на вопрос ускорения модели достаточно прост — задеплоить на ГПУ. Но не всегда это возможно по тем или иным причинам. И что же делать?
В докладе расскажу как в Домклике используют нейронные сети для голосовых и текстовых ботов. Поговорим о том, почему переезд нейронки на ГПУ это не всегда лучшее решение. Препарируем трансформер RoBERTa, посмотрим из чего он состоит и как ускорить выполнение каждой части отдельно. Обсудим как задеплоить полученные артефакты в прод и какие еще методы ускорения модели и ускорения постобработки можно применить.
В заключении посмотрим какого результата удалось добиться и стоило ли оно того и рассмотрим ситуации, когда без ускорения моделей ну никак не обойтись.