Как собрать огромный датасет и не потратить годовой бюджет маленькой страны

BigData и машинное обучение

BigData / Нейронные сети

#Machine Learning

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Если вам нужно собирать данные для обучения моделей и вы задумываетесь, не использовать ли для этого краудсорсинговую платформу типа Толоки, то опыт Карины и Александра будет вам интересен и полезен.

Целевая аудитория

Data-сайентисты, ML и Data-инженеры.

Тезисы

Летом мы опубликовали самый большой жестовый набор данных HaGRID и сегодня расскажем, как собирать и размечать огромные датасеты.

В нашем докладе мы:
* поговорим про основные лайфхаки при работе с краудсорсинг-платформами,
* расскажем о том, как существенно снизить стоимость проекта и повысить качество разметки,
* научим работать с непослушными разметчиками, от которых зависит будущее датасета,
* пройдем полный путь от идеи до создания автоматизированного пайплайна, с помощью которого можно одной кнопкой собрать много данных.

Датасет, код обучения моделей и сами модели доступны в OpenSource! 💪

Data Scientist, Team Lead Computer Vision RND.

SberDevices

SberDevices — IT-компания полного цикла в экосистеме Сбера, R&D-центр экспертизы в области искусственного интеллекта: речевые технологии, понимание естественного языка, компьютерное зрение, лицевая и голосовая биометрия. Производит умные устройства — от лампочек до телевизоров. В портфолио SberDevices — ruGPT-3, ruDall-E, RuSBERT и другие масштабные ML-проекты, высоконагруженные системы и технологии обработки Big Data.

Data Scientist, Computer Vision Engineer.

SberDevices

SberDevices — IT-компания полного цикла в экосистеме Сбера, R&D-центр экспертизы в области искусственного интеллекта: речевые технологии, понимание естественного языка, компьютерное зрение, лицевая и голосовая биометрия. Производит умные устройства — от лампочек до телевизоров. В портфолио SberDevices — ruGPT-3, ruDall-E, RuSBERT и другие масштабные ML-проекты, высоконагруженные системы и технологии обработки Big Data.

Видео