vLLM, LoRA и GPU-кластеры: техническая анатомия обогащения поисковой выдачи Авито мультимодальными моделями

GenAI и большие языковые модели (LLM)

Python
Распределенные системы
ML

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Доклад полезен слушателям, интересующимся темой того, что происходит на бэкенде у ML.

Целевая аудитория

Бэкенд-разработчики, ML-инженеры и технические руководители, интегрирующие современные ML-решения в высоконагруженные системы

Тезисы

В докладе я представлю архитектурное решение, позволившее нам интегрировать мультимодальные модели в поисковую систему маркетплейса для улучшения поисковой выдачи. Наша система анализирует изображения товаров и генерирует релевантные описания для сотен тысяч объявлений, существенно обогащая поисковый индекс.

Мы рассмотрим наш переход от Aqueduct на vLLM, работу с LoRA-адаптерами, общую архитектуру решения, интеграцию с поисковым движком и посмотрим на наши метрики.

Интересуется высоконагруженными распределенными системами и машинным обучением. В управленческом плане фокусируется на построении высокопроизводительных команд и работе на результат.

В настоящее время занимается развитием полноты поиска в Avito.

Видео

Другие доклады секции

GenAI и большие языковые модели (LLM)