Как собрать огромный датасет и не потратить годовой бюджет маленькой страны

BigData и машинное обучение

BigData / Нейронные сети

Machine Learning
ML
Обработка данных
Расширение кругозора

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Если вам нужно собирать данные для обучения моделей и вы задумываетесь, не использовать ли для этого краудсорсинговую платформу типа Толоки, то опыт Карины и Александра будет вам интересен и полезен.

Целевая аудитория

Data-сайентисты, ML и Data-инженеры.

Тезисы

Летом мы опубликовали самый большой жестовый набор данных HaGRID и сегодня расскажем, как собирать и размечать огромные датасеты.

В нашем докладе мы:
* поговорим про основные лайфхаки при работе с краудсорсинг-платформами,
* расскажем о том, как существенно снизить стоимость проекта и повысить качество разметки,
* научим работать с непослушными разметчиками, от которых зависит будущее датасета,
* пройдем полный путь от идеи до создания автоматизированного пайплайна, с помощью которого можно одной кнопкой собрать много данных.

Датасет, код обучения моделей и сами модели доступны в OpenSource! 💪

Руководит исследовательскими ML-командами в SberDevices. В прошлом инженер-железячник в области цифровой обработки сигналов на FPGA и ASIC, в частности, для обработки изображений и звука. Автор топовых лекций по обработке сигналов и регулярный спикер на научно-технических конференциях. Активный контрибьютор в Open Source.

SberDevices

SberDevices — российская IT-компания полного цикла. R&D-центр экспертизы в области искусственного интеллекта: речевые технологии, понимание естественного языка, компьютерное зрение, лицевая и голосовая биометрия. Производит умные устройства, разрабатывает высокотехнологичные сервисы для бизнеса, делает масштабные ML-проекты, LLM, высоконагруженные системы и технологии обработки Big Data. В портфолио SberDevices — SberBox, SberJazz, GigaChat, Kandinsky и другие легенды.

Computer Vision Engineer.

SberDevices

SberDevices — это компания полного цикла. Мы создаем идеи, самостоятельно разрабатываем продукты, занимаемся прототипированием, конструированием, придумываем дизайн, программные решения, контролируем качество на фабриках и создаем инструменты для аппаратного тестирования. Перед SberDevices стоит амбициозная задача: сделать новейшие технологии максимально доступными в повседневной жизни, помочь им раскрыться и практически, и коммерчески.

Видео