Крупнейшая профессиональная конференция для разработчиков высоконагруженных систем

Как устроена Алиса нового поколения

Архитектура

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Под капотом новой Алисы три дата-центра и сотни серверов с GPU. Но все равно для обеспечения быстрой работы приходится использовать множество оптимизаций: "рефразеры" для запросов, стриминг, квантизацию и спекулятивный декодинг. Все это - в докладе спикера из Яндекса.

Целевая аудитория

Заходите, если хотите узнать, как изменилась Алиса с появлением LLM, с какими трудностями мы столкнулись и как мы их преодолели

Тезисы

В апреле мы запустили новую Алису, в которую внедрили большие языковые модели. В своем докладе я расскажу, что потребовалось изменить в нашем ассистенте, чтобы заставить Алису думать по-новому.

Я расскажу, как мы это сделали и как решили следующие проблемы:
- Скорость ответа, как начать отвечать пользователю не за десять секунд, а быстрее
- Цена запроса, как не тратить тысячи GPU
- Стабильность, как не сломать то, что хорошо работает сейчас

Посмотрим, что получилось в итоге, что можно улучшить и почему мы все еще это не сделали

Руслан Ахтариев

Яндекс.Технологии

Руководитель группы рантайма диалогового движка

Яндекс.Технологии

Яндекс — технологическая компания, которая создаёт инновационные продукты на основе машинного обучения и нейронных сетей. Команда талантливых математиков и программистов развивает самую популярную в России поисковую систему и более 85 пользовательских сервисов, которые помогают людям в повседневных заботах.

Видео

Другие доклады секции

Архитектура