Как перевести разметку на генеративные модели, не уронив качество и стабильность

GenAI и большие языковые модели (LLM)

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Описание поэтапного внедрения разметки в платформу. Будет интересно всем, кто хочет работать с этой темой и не ошибиться.

Целевая аудитория

Руководители, менеджеры, аналитики, ML-команды, которые занимаются регулярным сбором датасетов путем асессорской разметки либо пытаются делать это с помощью генеративных моделей.

Тезисы

В начале июля мы выкатили на нашей платформе опцию разметки на LLM и VLM. Теперь при запуске разметки пользователь может выбрать человека, модель, а может поставить условие по качеству, и тогда будет работать комбинация модели и человека. Расскажу о том, какие компоненты мы реализовали и как интегрировали для того, чтобы наряду с асессорской разметкой дать пользователям доступ к авторазметке. Основные фичи:

* оценка уверенности генеративной модели,
* рекомендации по улучшению промпта,
* регулярный мониторинг качества,
* автотипизация проектов и рекомендация автоматик.

Расскажу, как мы пришли от кастомных автоматик под каждый проект разметки к настраиваемой автоматике на платформе. Как устроена архитектура микросервисов и данных, мониторинги, контроль нагрузки. Полезно будет всем, кто стремится настроить регулярные авторазметки на генеративных моделях и экспериментирует с LLM-as-a-judge.

Дарья Шатько

Яндекс Крауд

6 лет в Data Science, 3 года тимлид, последние 1,5 года руководит ML-группой в Яндекс Крауд. Начинала в McKinsey в направлении Advanced Analytics, делала несколько крупных проектов в области рекомендаций и персонализации промо в ретейле (в РФ и за рубежом). Перешла тимлидом в МегаФон, настраивали рекомендации по тарифным планам, под конец перешла в роль руководителя 4-х тимлидов. В апреле прошлого года пришла в Yandex Crowd тимлидом в команду из 11 человек (сейчас их уже 15). Вместе с командой настраивают автоматизацию разметок, создают чат-ботов, строят копайлоты для краудсорс-исполнителей. Их проекты — интеграционные, делают фичи для платформ Yandex Crowd. Ведут проекты от стадии RnD до выкатки в прод и дальнейшей поддержки.
В свободное время танцует аргентинское танго, путешествует.

Видео

Другие доклады секции

GenAI и большие языковые модели (LLM)