AI ответы в Яндекс.Поиске: как увеличить счастье пользователей и сэкономить GPU

GenAI и большие языковые модели (LLM)

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Лёша из Яндекс.Поиска расскажет, как построили систему выбора LLM под каждый запрос. От простого фильтра с классификаторами к многоуровневому роутингу, который увеличил покрытие в несколько раз, увеличил мерики счастья польователя и сэкономил сотни GPU. Реальные грабли и готовые решения включены.

Целевая аудитория

- ML/LLM-инженеры и MLOps-разработчики - Backend / Highload-архитекторы - Data-аналитики и PM Все, кто работают с GenAI продуктами, особенно с высоконагруженными

Тезисы

Эпоха генеративных моделей позволяет помогать пользователям решать задачи прямо на выдаче поиска, не отправляя их по ссылкам. В Яндекс.Поиске мы уже сделали три релиза генеративных ответов — SearchGPT, «Нейро» и «Поиск с Алисой».

Главный вызов: как приносить максимум пользы 100+ миллионам пользователей и при этом оптимально использовать ограниченные GPU-ресурсы.

Когда запускали первую версию SearchGPT, мы попробовали простые фильтры и модели, который решали, где показывать LLM-ответы. Работало, но покрытие было всего несколько процентов. И это давало неоптимальные результаты: на части запросов пользователи получали ошибки и жалобы на качество, а на некоторых других, наоборот, ответы не появлялись там, где они были бы полезны.

Со временем появились новые модели - специализированные (например математические), мультимодальные, дистиллированные для оптимизации ресурсов. Каждая эффективна на своём наборе запросов, и стало понятно: одной модели недостаточно. Мы построили многоуровневый роутинг, который выбирает оптимальную из 4+ моделей под каждый запрос, а треть ответов генерирует заранее в оффлайне. Результат: покрытие увеличенное до 30+ пп, рост качества, счастья пользователй и экономия сотен GPU.

В докладе: разберём архитектуры решений, покажем наши грабли с расхождением оффлайн- и онлайн-метрик (из-за которых задержали релиз на недели), и обсудим практические паттерны оптимизации ресурсов при работе с LLM в высоконагруженных системах

Что заберете с собой:
- Готовую архитектуру многоуровневого роутинга LLM-моделей
- Проверенные паттерны кэширования генеративных ответов (экономия до 30% GPU)
- Методики выбора оптимальной модели под запрос
- Чек-лист типичных ошибок при масштабировании LLM в продакшене

5 лет в машинном обучении и AI: от NLP-ресёрча и работы в международном консалтинге Accenture до LegalTech-решений в Сбере и генеративных ответов в поиске Яндекса. («SearchGPT», «Нейро», «Поиск с Алисой»). Отвечал за задачи, критичные для качества генеративных ответов, — от запуска факт-чека и повышения достоверности до оптимизации моделей и выбора LLM-архитектур для различных сценариев поиска. Спикер DataFest’23 с докладом о повышении достоверности генеративных моделей в продуктах. Увлекаюсь барабанами, гимнастикой и силовыми тренировками (фан факт: недавно на соревнованиях подтянулся 2^5 раз).

Видео

Другие доклады секции

GenAI и большие языковые модели (LLM)