Machine learning: создаем обучающую выборку правильноBigData и машинное обучение
Сейчас помогает развивать компании Grid Dynamics направление машинного обучения и искусственного интеллекта. Имеет значительный опыт в области машинного обучения, информационного поиска и больших данных. До работы в компании Grid Dynamics работал как в больших компаниях, так и в стартапе.
Обычно, рассказывая про проект с машинным обучением, инженеры сосредотачиваются на моделях, техниках и трюках, которые они используют. И в меньшей степени - на конструировании признаков и подготовке данных. Очень часто вопрос создания обучающей выборки опускается вовсе, и инженеры руководствуются правилом: чем больше данных разметить, тем лучше.
По моему мнению, связь между количеством примеров в обучающей выборке и качеством модели не всегда прямая. Чтобы выявить эту зависимость, прежде нужно ответить на вопросы: как ускорить время на создание обучающей выборки и попутно улучшить восприятие продукта, когда привлекать дополнительных людей через внешние сервисы для ускорения разметки.
В этом докладе мы наглядно рассмотрим различные примеры из e-commerce-индустрии и разберемся, как правильно формировать инструкции и данные для людей, создающих обучающие выборки.