Эпоха генеративных моделей позволяет помогать пользователям решать задачи прямо на выдаче поиска, не отправляя их по ссылкам. В Яндекс.Поиске мы уже сделали три релиза генеративных ответов — SearchGPT, «Нейро» и «Поиск с Алисой».
Главный вызов: как приносить максимум пользы 100+ миллионам пользователей и при этом оптимально использовать ограниченные GPU-ресурсы.
Когда запускали первую версию SearchGPT, мы попробовали простые фильтры и модели, который решали, где показывать LLM-ответы. Работало, но покрытие было всего несколько процентов. И это давало неоптимальные результаты: на части запросов пользователи получали ошибки и жалобы на качество, а на некоторых других, наоборот, ответы не появлялись там, где они были бы полезны.
Со временем появились новые модели - специализированные (например математические), мультимодальные, дистиллированные для оптимизации ресурсов. Каждая эффективна на своём наборе запросов, и стало понятно: одной модели недостаточно. Мы построили многоуровневый роутинг, который выбирает оптимальную из 4+ моделей под каждый запрос, а треть ответов генерирует заранее в оффлайне. Результат: покрытие увеличенное до 30+ пп, рост качества, счастья пользователй и экономия сотен GPU.
В докладе: разберём архитектуры решений, покажем наши грабли с расхождением оффлайн- и онлайн-метрик (из-за которых задержали релиз на недели), и обсудим практические паттерны оптимизации ресурсов при работе с LLM в высоконагруженных системах
Что заберете с собой:
- Готовую архитектуру многоуровневого роутинга LLM-моделей
- Проверенные паттерны кэширования генеративных ответов (экономия до 30% GPU)
- Методики выбора оптимальной модели под запрос
- Чек-лист типичных ошибок при масштабировании LLM в продакшене