В программе HighLoad++ 2015 года шесть новых секций и одна из них — BigData, сбор и анализ больших данных, а также машинное обучение.
Вторая, выполненная Программным комитетом из пожеланий сообщества, задача — получение заявки от Павла Велихова, директор по науке стартапа TopRater.com.
Мы строим сервис TopRater.com, который должен агрегировать в себе все мнения из интернета относительно массы объектов e-commerce. Для этого мы "прочитали" миллионы отзывов и научились выделять из них сущности, аспекты, тональности и факты. При этом, хотя объемы данных кажутся маленькими для специалистов Big Data (всего несколько терабайт) — почти во всех задачах нам пришлось использовать технологии Big Data — сотни серверов на Google Cloud, Apache Spark, MPP Базы данных.
В докладе в форме "галопом по Европам" будет рассказано о гибридных подходах к NLP и машинному обучению, будут всякие интересные простые решения (некоторые широко-известные, но как показывает практика, часто забыты), ну и конечно немного про Deep Learning. А также про наш кластер и как там все организовано.
В докладе QRator Labs будут продемонстрированы основные области науки о данных, применимые в задачах защиты от DDOS атак. Мы расскажем о машинном обучении с обратной связью:
Сделан акцент на сложности алгоритмов и времени, необходимом для обучения. Показано, что для построения надёжной и эффективной системы защиты, необходимо заблаговременно подготовить данные о защищаемой системе, настроить и обучить механизмы защиты.
Также мы ждём ещё заявки от отдела Data Mining в Mail.RU, доклады про машинное обучение и распознавание картинок от Badoo, а также целый блок искусственного интеллекта от Avito: