Как устроена Алиса нового поколения

Архитектура

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Под капотом новой Алисы три дата-центра и сотни серверов с GPU. Но все равно для обеспечения быстрой работы приходится использовать множество оптимизаций: «рефразеры» для запросов, стриминг, квантизацию и спекулятивный декодинг. Все это — в докладе спикера из Яндекса.

Целевая аудитория

Заходите, если хотите узнать, как изменилась Алиса с появлением LLM, с какими трудностями мы столкнулись и как мы их преодолели.

Тезисы

В апреле мы запустили новую Алису, в которую внедрили большие языковые модели. В своем докладе я расскажу, что потребовалось изменить в нашем ассистенте, чтобы заставить Алису думать по-новому.

Я расскажу, как мы это сделали и как решили следующие проблемы:
* скорость ответа: как начать отвечать пользователю не за десять секунд, а быстрее;
* цена запроса: как не тратить тысячи GPU;
* стабильность: как не сломать то, что хорошо работает сейчас.

Посмотрим, что получилось в итоге, что можно улучшить и почему мы все еще это не сделали.

Руководитель группы рантайма диалогового движка.

Яндекс

Яндекс — технологическая компания, которая создает инновационные продукты на основе машинного обучения и нейронных сетей. Команда талантливых математиков и программистов развивает самую популярную в России поисковую систему и более 85 пользовательских сервисов, которые помогают людям в повседневных заботах.

Видео

Другие доклады секции

Архитектура