Evals-Driven: как управлять разработкой AI-агентов и LLM-based приложений

GenAI и большие языковые модели (LLM)

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

Для всех, кто работает с LLM в проде

Тезисы

Большая часть внедрений LLM в реальные проекты до сих пор делается “по ощущениям”: какую модель взять, какой промпт лучше, стало ли лучше после правок — решают по принципу “вроде норм, давайте катить”. Для вероятностных систем это быстро превращается в регрессии качества, странные галлюцинации, неконтролируемый рост стоимости и прочие радости LLM.

В докладе покажу, как превратить хаотичную разработку LLM в инженерный процесс: что такое evals и почему это не просто тесты и бенчмарки, как их собирать и использовать в quality-гейтах. Детально разберем весь процесс: evals и их таксономию, eval harness, метрики качества и стоимости, а также то, как сделать evals обязательной частью CI/CD.

Руководит разработкой и внедрением AI-агентов в трудоемкие бизнес-процессы и сложные продукты, которые оптимизируют работу колл-центров, юристов, аналитиков, дизайнеров и других сотрудников. Строит автономные системы, обожает LLM и все, что с ними связано. Слегка в прошлом — разработка большой платформы по мультимодальной разметке любой сложности, которая развила особую любовь к качеству данных.

Видео

Другие доклады секции

GenAI и большие языковые модели (LLM)