HighLoad++ 2015 завершён! Ждём вас в 2016 году!

Профессиональная конференция разработчиков высоконагруженных систем

2 и 3 ноября 2015 Крокус-Экспо МОСКВА
Профессиональная конференция разработчиков высоконагруженных систем

Ускоряем исследования с помощью конкурсов: как их готовить и выигрывать
BigData и машинное обучение

Доклад принят в Программу конференции
Avito

Окончил МФТИ, к.ф.-м.н. по машинному обучению.
Прикладным анализом данных начал заниматься с 2006 года в компании Форексис, где разрабатывал и внедрял различные аналитические системы, основанные на моделях машинного обучения в телекомы/банки/ритейлы. С 2010 года в компании IBM отвечал за проектирование и внедрение аналитических продуктов SPSS во все вертикали в России и СНГ. С 2013 года присоединился к Авито в качестве руководителя отдела аналитики. С использованием новейших технологий и методов машинного обучения нашей команде удалось автоматизировать многие бизнес-процессы компании - от операционной и аналитической отчетности до проверки качества контента и целевого маркетинга.

Avito

Магистрант МФТИ, бакалавр по машинному обучению.
Спортивным анализом данных стал заниматься с 2013 года, участвовал нескольких хакатонах и в более чем 20 конкурсах по анализу данных, 7 раз становился призером. На текущий момент занимает 26 позицию в международном рейтинге Kaggle.com.
https://www.kaggle.com/mikhailtrofimov
С 2014 года присоединился к Avito в качестве специалиста по анализу данных. Используя новейшие технологии и методы машинного обучения занимается решением широкого спектра задач -- от классификации текстов объявлений до построения рекомендательных систем.

Тезисы

Задачи машинного обучения (ML) имеют несколько другую специфику, нежели инженерные задачи построения высоконагруженных систем.

Многие из ML-задач можно решить быстро и "на коленке". Хрестоматийный пример - хотим построить спам-фильтр и берем наивного байеса. Хороший масштабируемый алгоритм, но на реальных данных оказывается, что качество низкое. Возникает вопрос - что делать? Сдаваться и давать волю спамерам или перепробовать миллион модных современных методов текстовой аналитики за бесконечное время? Даже коллективу сделать это сложно. На выход и приходят конкурсы, где сотни команд за ограниченное время перебирают все возможные способы решения, и вы получаете лучшее. Важно даже не само решение, а факт того, что вы понимаете, какое предельное качество достижимо.

Тут возникает резонный вопрос: а про что тут еще рассказывать? Так вот, проблема в том, что подготавливать задачу к конкурсам намного сложнее, чем искать ее решение. Поэтому конкурсы так не распространены, а специализированные компании берут за подготовку конкурсов весьма солидные суммы. Мой доклад как раз про то, как готовить конкурсы.

Мы устраивали конкурсы на построение алгоритмов, работающих с совершенно различными типами и объемами данных:
- Выявление запрещенных объявлений.
- Прогнозирование вероятности клика на рекламное объявление.
- Обнаружение телефонов на изображениях.
- Прогнозирование инкрементального эффекта от скидочных акций.

Какие-то были более удачными, какие-то - менее. Расскажем про основные этапы подготовки задач к конкурсу, а также про основные трюки, используемые для победы в таких конкурсах.

Rambler's Top100