AI-ответы в Яндекс Поиске: как увеличить счастье пользователей и сэкономить GPU

GenAI и большие языковые модели (LLM)

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Лёша из Яндекс Поиска расскажет, как построили систему выбора LLM под каждый запрос. От простого фильтра с классификаторами к многоуровневому роутингу, который увеличил покрытие в несколько раз, увеличил метрики счастья пользователя и сэкономил сотни GPU. Реальные грабли и готовые решения включены.

Целевая аудитория

* ML/LLM-инженеры и MLOps-разработчики. * Backend / Highload-архитекторы. * Data-аналитики и PM. Все, кто работает с GenAI-продуктами, особенно с высоконагруженными.

Тезисы

Эпоха генеративных моделей позволяет помогать пользователям решать задачи прямо на выдаче поиска, не отправляя их по ссылкам. В Яндекс Поиске мы уже сделали три релиза генеративных ответов: SearchGPT, «Нейро» и «Поиск с Алисой».

Главный вызов: как приносить максимум пользы 100+ миллионам пользователей и при этом оптимально использовать ограниченные GPU-ресурсы.

Когда запускали первую версию SearchGPT, мы попробовали простые фильтры и модели, который решали, где показывать LLM-ответы. Работало, но покрытие было всего в несколько процентов. И это давало неоптимальные результаты: на части запросов пользователи получали ошибки и жалобы на качество, а на некоторых других, наоборот, ответы не появлялись там, где они были полезны.

Со временем появились новые модели: специализированные (например математические), мультимодальные, дистиллированные для оптимизации ресурсов. Каждая эффективна на своем наборе запросов, и стало понятно: одной модели выбора запросов для LLM-ответов и роутинга недостаточно.

Поэтому мы построили многоуровневую систему, которая сначала решает, стоит ли отвечать на запрос с помощью LLM, а затем подбирает оптимальную из 4+ моделей под конкретный случай. При этом как минимум треть ответов генерируется заранее в офлайне.

Результат: покрытие, увеличенное до 30+ пп, рост качества, счастья пользователей и экономия сотен GPU.

В докладе:
* разберём архитектуры решений;
* обсудим практические паттерны оптимизации ресурсов при работе с LLM в высоконагруженных системах;
* покажем наши грабли, в том числе с расхождением офлайн- и онлайн-метрик (из-за которых потеряли несколько недель и ресурсы на повторные проверки и доработку моделей)

Что заберете с собой:
* примеры архитектур многоуровневого роутинга LLM-моделей;
* проверенные паттерны кэширования генеративных ответов;
* методики выбора оптимальной модели под запрос;
* опыт и ошибки при масштабировании LLM в продакшене.

5 лет в машинном обучении и AI: от NLP-ресёрча и работы в международном консалтинге Accenture до LegalTech-решений в Сбере и генеративных ответов в поиске Яндекса. («SearchGPT», «Нейро», «Поиск с Алисой»). Отвечал за задачи, критичные для качества генеративных ответов, — от запуска факт-чека и повышения достоверности до оптимизации моделей и выбора LLM-архитектур для различных сценариев поиска. Спикер DataFest’23 с докладом о повышении достоверности генеративных моделей в продуктах. Увлекаюсь барабанами, гимнастикой и силовыми тренировками (фан-факт: недавно на соревнованиях подтянулся 2^5 раз).

Видео

Другие доклады секции

GenAI и большие языковые модели (LLM)