Дмитрий Антипов на HighLoad++ 2024

Ускоряем разметку данных нейронками: пайплайн, метрики и лайфхаки

Нейронные сети и искусственный интеллект (data science)

3 декабря, 15:50, Зал «13. Найроби+Касабланка (2 этаж)»

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Если вам нужно что-то размечать, то вы наверняка задумаетесь, как прикрутить к этому процессу нейронки, чтобы меньше полагаться на кожаных мешков. А тут человек, который этот путь прошёл, скорее всего, раньше вас, расскажет, где на нём грабельки разложены. Здорово же!

Целевая аудитория

DS- и ML-инженеры, их лиды и все те, кому интересна разметка данных.

Тезисы

Скачать презентацию Все презентации конференции

С появлением различных фундаментальных моделей все большее количество привычных задач решается нейронками практически «из коробки». А если не решается сходу, то можно улучшиться небольшим файнтюнингом.

Whisper базово неплохо справляется с транскрибацией речи, LLM правят текстами, yolo значительно ускоряет задачи компьютерного зрения и таких примеров — много. Игнорировать эти большие изменения в процессах разметки невозможно, поэтому мы активно встраиваем различные модели в наши привычные пайплайны с людьми. И часто эта авторазметка позволяет значительно повысить эффективность всех процессов и улучшить результаты.

Я поделюсь проблемами сложной разметки, расскажу о том, как нейронки уже стали неотъемлемой частью процесса разметки, заглянем под капот нашей системы, поговорим про метрики, создаваемые нагрузки и сравнимся во всем с людьми.

Дмитрий Антипов

Сбер / АБТ

Помогает Сберу делать его флагманский ИИ лучше: создают инструменты для DS-/ML-команд, позволяющие быстро и максимально качественно готовить данные практически любой сложности.

Сбер / АБТ

Сбер — это современный стек технологий, драйвовые проекты и команда единомышленников. У них около 3 000 продуктовых команд и огромное профессиональное IT-сообщество. Работают над созданием удобных онлайн-сервисов в самых разных сферах.