Новая секция на HighLoad++ получила 12 заявок, в целом мы о них уже рассказывали в новостях конференции и нашем блоге на ХабрХабре. Пара заявок вызвала наше особенное внимание, они были о... конкурсах!
Мы задали вопрос Ивану Гузу (Avito), автору доклада "Ускорение исследований за счет организации конкурсов: как их готовить и использовать результаты" и вот, что он рассказал.
Задачи машинного обучения (о которых мой доклад) имеют несколько другую специфику нежели инженерные задачи построения высоконагруженных систем.
Многие из ML задач можно решить быстро и на коленке. Хрестоматийный пример — хотим построить спамфильтр и берем наивного байеса. Хороший масштабирумый алгоритм. Но на реальных данных оказывается, что качество низкое. Возникает вопрос — что делать?
Сдаваться и давать волю спамерам или перепробовать миллион модных современных методов текстовой аналитики за бесконечное время? Даже коллективу сделать это сложно. На выход и приходят конкурсы, где сотни команд за ограниченное время перебирают все возможные способы решения и вы получаете лучшее. Важно даже не само решение а сам факт того, что вы понимаете, какое предельное качество достижимо.
Так вот проблема в том, что подготавливать задачу к конкурсам намного сложнее, чем искать ее решение. Поэтому конкурсы так не распростанены, а специализированные компании берут за подготовку конкурсов десятки тысяч долларов. Мой доклад — как раз про то, как это делать — как ставить на поток исследования с практическими примерами.