Как собрать огромный датасет и не потратить годовой бюджет маленькой страны

BigData и машинное обучение

BigData / Нейронные сети

Machine Learning
ML
Обработка данных
Расширение кругозора

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Если вам нужно собирать данные для обучения моделей и вы задумываетесь, не использовать ли для этого краудсорсинговую платформу типа Толоки, то опыт Карины и Александра будет вам интересен и полезен.

Целевая аудитория

Data-сайентисты, ML и Data-инженеры.

Тезисы

Летом мы опубликовали самый большой жестовый набор данных HaGRID и сегодня расскажем, как собирать и размечать огромные датасеты.

В нашем докладе мы:
* поговорим про основные лайфхаки при работе с краудсорсинг-платформами,
* расскажем о том, как существенно снизить стоимость проекта и повысить качество разметки,
* научим работать с непослушными разметчиками, от которых зависит будущее датасета,
* пройдем полный путь от идеи до создания автоматизированного пайплайна, с помощью которого можно одной кнопкой собрать много данных.

Датасет, код обучения моделей и сами модели доступны в OpenSource! 💪

Занимается исследованиями в области цифровой обработки сигналов, в частности обработки радиосигналов и изображений с 2012 года. В настоящий момент руководит исследовательскими командами в области компьютерного зрения в SberDevices. В прошлом ведущий инженер-железячник в области цифровой обработки на базе FPGA / ASIC.

SberDevices

SberDevices — это компания полного цикла. Мы создаем идеи, самостоятельно разрабатываем продукты, занимаемся прототипированием, конструированием, придумываем дизайн, программные решения, контролируем качество на фабриках и создаем инструменты для аппаратного тестирования. Перед SberDevices стоит амбициозная задача: сделать новейшие технологии максимально доступными в повседневной жизни, помочь им раскрыться и практически, и коммерчески.

Computer Vision Engineer.

SberDevices

SberDevices — это компания полного цикла. Мы создаем идеи, самостоятельно разрабатываем продукты, занимаемся прототипированием, конструированием, придумываем дизайн, программные решения, контролируем качество на фабриках и создаем инструменты для аппаратного тестирования. Перед SberDevices стоит амбициозная задача: сделать новейшие технологии максимально доступными в повседневной жизни, помочь им раскрыться и практически, и коммерчески.

Видео