Ускоряем разметку данных нейронками: пайплайн, метрики и лайфхаки Нейронные сети и искусственный интеллект (data science)
Мастер спорта по AI-first разработке и энтерпрайз вайб-кодингу: люблю копаться внутри технологий и тулинга кодогенерации, строить evals/harness, считать экономику и реальную эффективность команд в пост-LLM эпоху и участвовать в пересборке того, как вообще будут выглядеть процессы создания продуктов в новой реальности.
Обожаю GenAI. Глубоко разбираюсь в AI-агентах и их внедрении в сложные бизнес-процессы (аналитика, обработка документов, описание данных). Руковожу разработкой и продуктизацией LLM-based/AI-продуктов, одинаково хорошо понимаю инженеров и бизнес-заказчиков.
Верю в голос как интерфейс и автономные системы с минимальным участием в них человека.
Тезисы
С появлением различных фундаментальных моделей все большее количество привычных задач решается нейронками практически «из коробки». А если не решается сходу, то можно улучшиться небольшим файнтюнингом.
Whisper базово неплохо справляется с транскрибацией речи, LLM правят текстами, yolo значительно ускоряет задачи компьютерного зрения и таких примеров — много. Игнорировать эти большие изменения в процессах разметки невозможно, поэтому мы активно встраиваем различные модели в наши привычные пайплайны с людьми. И часто эта авторазметка позволяет значительно повысить эффективность всех процессов и улучшить результаты.
Я поделюсь проблемами сложной разметки, расскажу о том, как нейронки уже стали неотъемлемой частью процесса разметки, заглянем под капот нашей системы, поговорим про метрики, создаваемые нагрузки и сравнимся во всем с людьми.
