Борьба с мошенниками: поиск дубликатов среди сотен миллионов объявлений BigData и машинное обучение

Доклад принят в программу конференции
Алексей Григорьев
OLX Group

Алексей профессионально занимается разработкой уже 10 лет, из которых последние 6 лет он фокусируется на системах с использованием машинного обучения.
Сейчас работает в должности Data Scientist в компании OLX Group, где разрабатывает системы для обработки картинок и помогает модераторам фильтровать объявления.

Также Алексей является автором нескольких книг (в т.ч. Mastering Java for Data Science) и раньше успешно участвовал в конкурсах по машинному обучению.

https://www.linkedin.com/in/agrigorev
https://github.com/alexeygrigorev
contact@alexeygrigorev.com
Тезисы

OLX - платформа для онлайн-объявлений, и миллионы добропорядочных пользователей посещают нас каждый день, чтобы купить и продать товары друг у друга. К сожалению, среди них встречаются и мошенники, которые создают несуществующие объявления, копируя содержания других листингов, и обманывают покупателей.

В этом докладе расскажем, как мы боремся с мошенниками, и представим систему для поиска дубликатов. Наша система использует машинное обучение для анализа текста и картинок более 10 миллионов объявлений в день, что позволяет нам устранять нежелательные листинги до того, как они нанесут вред нашим пользователям.

Мы покажем, как мы спроектировали нашу систему, поделимся деталями реализации и расскажем про технологии, которые мы использовали для этого.

Технологии: AWS, kubernetes, python, elasticsearch, scikit-learn и keras.

Python
,
Поисковые системы
,
Работа с облачными сервисами
,
Machine Learning

Другие доклады секции BigData и машинное обучение