HighLoad++ 2015 завершён! Ждём вас в 2016 году!

Профессиональная конференция разработчиков высоконагруженных систем

2 и 3 ноября 2015 Крокус-Экспо МОСКВА
Профессиональная конференция разработчиков высоконагруженных систем

TopRater.com: Машинное понимание миллионов отзывов или как быстро получить BigData из NLP и Machine Learning
BigData и машинное обучение

Доклад принят в Программу конференции
Yandex Cloud

Руководитель команды оптимизатора YDB.
Некоторые прошлые проекты: Enosys Integration Server (сейчас часть Oracle), Sedna XML DBMS, система Texterra (Институт Системного Программирования), SciDB MPP DBMS, News360, Huawei GaussDB, TigerGraph.

Видео

К сожалению, исходники видеозаписи этого доклада оказались битыми. Мы пытаемся исправить ситуацию, но пока видео не доступно.

Тезисы

Мы строим сервис TopRater.com, который должен агрегировать в себе все мнения из Интернета относительно массы объектов e-commerce. Для этого мы "прочитали" миллионы отзывов и научились выделять из них сущности, аспекты, тональности и факты. При этом, хотя объемы данных кажутся маленькими для специалистов Big Data (всего несколько терабайт) - почти во всех задачах нам пришлось использовать технологии Big Data - сотни серверов на Google Cloud, Apache Spark, MPP Базы данных.

В докладе в форме "галопом по Европам" будет рассказано о гибридных подходах к NLP и машинному обучению, будут всякие интересные простые решения (некоторые широко известные, но, как показывает практика, часто забытые), ну и, конечно, немного про Deep Learning, а также про наш кластер и как там все организовано.

Другие доклады секции
BigData и машинное обучение

Rambler's Top100