Эпоха генеративных моделей позволяет помогать пользователям решать задачи прямо на выдаче поиска, не отправляя их по ссылкам. В Яндекс Поиске мы уже сделали три релиза генеративных ответов: SearchGPT, «Нейро» и «Поиск с Алисой».
Главный вызов: как приносить максимум пользы 100+ миллионам пользователей и при этом оптимально использовать ограниченные GPU-ресурсы.
Когда запускали первую версию SearchGPT, мы попробовали простые фильтры и модели, который решали, где показывать LLM-ответы. Работало, но покрытие было всего в несколько процентов. И это давало неоптимальные результаты: на части запросов пользователи получали ошибки и жалобы на качество, а на некоторых других, наоборот, ответы не появлялись там, где они были полезны.
Со временем появились новые модели: специализированные (например математические), мультимодальные, дистиллированные для оптимизации ресурсов. Каждая эффективна на своем наборе запросов, и стало понятно: одной модели выбора запросов для LLM-ответов и роутинга недостаточно.
Поэтому мы построили многоуровневую систему, которая сначала решает, стоит ли отвечать на запрос с помощью LLM, а затем подбирает оптимальную из 4+ моделей под конкретный случай. При этом как минимум треть ответов генерируется заранее в офлайне.
Результат: покрытие, увеличенное до 30+ пп, рост качества, счастья пользователей и экономия сотен GPU.
В докладе:
* разберём архитектуры решений;
* обсудим практические паттерны оптимизации ресурсов при работе с LLM в высоконагруженных системах;
* покажем наши грабли, в том числе с расхождением офлайн- и онлайн-метрик (из-за которых потеряли несколько недель и ресурсы на повторные проверки и доработку моделей)
Что заберете с собой:
* примеры архитектур многоуровневого роутинга LLM-моделей;
* проверенные паттерны кэширования генеративных ответов;
* методики выбора оптимальной модели под запрос;
* опыт и ошибки при масштабировании LLM в продакшене.