Разметка датасетов в эпоху мультимодальности: проблемы, вызовы, решения Прочее
Мастер спорта по AI-first разработке и энтерпрайз вайб-кодингу: люблю копаться внутри технологий и тулинга кодогенерации, строить evals/harness, считать экономику и реальную эффективность команд в пост-LLM эпоху и участвовать в пересборке того, как вообще будут выглядеть процессы создания продуктов в новой реальности.
Обожаю GenAI. Глубоко разбираюсь в AI-агентах и их внедрении в сложные бизнес-процессы (аналитика, обработка документов, описание данных). Руковожу разработкой и продуктизацией LLM-based/AI-продуктов, одинаково хорошо понимаю инженеров и бизнес-заказчиков.
Верю в голос как интерфейс и автономные системы с минимальным участием в них человека.
Тезисы
Датасеты — топливо для моделей, и важно готовить их качественно. В докладе на основе опыта работы над GigaChat, Kandinsky и другими проектами я расскажу об основных задачах разметки в эпоху мультимодальности: текста, аудио, картинок и видео, приведу кейсы реальной жизни и поделюсь, как спарсить что угодно и генерировать данные из необычных мест. Расскажу, как мультимодальность меняет смысл задач и почему для хорошего результата нужна глубокая техническая подготовка.
Особое внимание уделю авторазметке и разметке через LLM во всех трех вариантах, нюансам работы со всеми типами разметчиков и разберу пайплайны создания идеальных датасетов: от постановки ML-задачи до контроля и получения итогового результата.
