Борьба с мошенниками: поиск дубликатов среди сотен миллионов объявлений BigData и машинное обучение
Алексей профессионально занимается разработкой уже 10 лет, из которых последние 6 лет он фокусируется на системах с использованием машинного обучения.
Сейчас работает в должности Data Scientist в компании OLX Group, где разрабатывает системы для обработки картинок и помогает модераторам фильтровать объявления.
Также Алексей является автором нескольких книг (в т.ч. Mastering Java for Data Science) и раньше успешно участвовал в конкурсах по машинному обучению.
https://github.com/alexeygrigorev
contact@alexeygrigorev.com
OLX - платформа для онлайн-объявлений, и миллионы добропорядочных пользователей посещают нас каждый день, чтобы купить и продать товары друг у друга. К сожалению, среди них встречаются и мошенники, которые создают несуществующие объявления, копируя содержания других листингов, и обманывают покупателей.
В этом докладе расскажем, как мы боремся с мошенниками, и представим систему для поиска дубликатов. Наша система использует машинное обучение для анализа текста и картинок более 10 миллионов объявлений в день, что позволяет нам устранять нежелательные листинги до того, как они нанесут вред нашим пользователям.
Мы покажем, как мы спроектировали нашу систему, поделимся деталями реализации и расскажем про технологии, которые мы использовали для этого.
Технологии: AWS, kubernetes, python, elasticsearch, scikit-learn и keras.