Evals-Driven: как управлять разработкой AI-агентов и LLM-based приложений

GenAI и большие языковые модели (LLM)

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

Для всех, кто работает с LLM в проде

Тезисы

Большая часть внедрений LLM в реальные проекты до сих пор делается “по ощущениям”: какую модель взять, какой промпт лучше, стало ли лучше после правок — решают по принципу “вроде норм, давайте катить”. Для вероятностных систем это быстро превращается в регрессии качества, странные галлюцинации, неконтролируемый рост стоимости и прочие радости LLM.

В докладе покажу, как превратить хаотичную разработку LLM в инженерный процесс: что такое evals и почему это не просто тесты и бенчмарки, как их собирать и использовать в quality-гейтах. Детально разберем весь процесс: evals и их таксономию, eval harness, метрики качества и стоимости, а также то, как сделать evals обязательной частью CI/CD.

Дмитрий Антипов

Сбер/АБТ

Мастер спорта по AI-first разработке и энтерпрайз вайб-кодингу: люблю копаться внутри технологий и тулинга кодогенерации, строить evals/harness, считать экономику и реальную эффективность команд в пост-LLM эпоху и участвовать в пересборке того, как вообще будут выглядеть процессы создания продуктов в новой реальности.

Обожаю GenAI. Глубоко разбираюсь в AI-агентах и их внедрении в сложные бизнес-процессы (аналитика, обработка документов, описание данных). Руковожу разработкой и продуктизацией LLM-based/AI-продуктов, одинаково хорошо понимаю инженеров и бизнес-заказчиков.

Верю в голос как интерфейс и автономные системы с минимальным участием в них человека.