Мы строим сервис TopRater.com, который должен агрегировать в себе все мнения из Интернета относительно массы объектов e-commerce. Для этого мы "прочитали" миллионы отзывов и научились выделять из них сущности, аспекты, тональности и факты. При этом, хотя объемы данных кажутся маленькими для специалистов Big Data (всего несколько терабайт) - почти во всех задачах нам пришлось использовать технологии Big Data - сотни серверов на Google Cloud, Apache Spark, MPP Базы данных.
В докладе в форме "галопом по Европам" будет рассказано о гибридных подходах к NLP и машинному обучению, будут всякие интересные простые решения (некоторые широко известные, но, как показывает практика, часто забытые), ну и, конечно, немного про Deep Learning, а также про наш кластер и как там все организовано.