Многие из задач машинного обучения требуют, чтобы ответ от модели был получен как можно быстрее. Обычно ответ на вопрос ускорения модели достаточно прост — задеплоить на ГПУ. Но не всегда это возможно по тем или иным причинам. И что же делать?
В докладе расскажу, как в Домклике используют нейронные сети для голосовых и текстовых ботов. Поговорим о том, почему переезд нейронки на ГПУ — это не всегда лучшее решение. Препарируем трансформер RoBERTa, посмотрим, из чего он состоит и как ускорить выполнение каждой части отдельно. Обсудим, как задеплоить полученные артефакты в прод и какие еще методы ускорения модели и ускорения постобработки можно применить.
В заключение посмотрим, какого результата удалось добиться и стоило ли оно того, а также рассмотрим ситуации, когда без ускорения моделей ну никак не обойтись.