Машинное обучение в рекламной системе MAIL.RU
Смежные области

Доклад принят в Программу конференции

Mail.Ru Group

Интересы: машинное обучение, data mining, kaggle.com, физика.

Машинное обучение в рекламной системе Mail.Ru, Игорь Кретинин (Mail.Ru Group) from Ontico

Тезисы

На основе данных, накапливаемых и хранимых в инфраструктуре рекламной системы MAIL.RU (HDFS, поток данных ~100K записей в секунду), проводится машинное обучение классификаторов, позволяющих разделять различные группы пользователей Интернета.

Для представления признаков, характеризующих конкретный обучающий прецедент, используется модель bag-of-words, в рамках которой векторы признаков имеют большую размерность и являются разреженными. Уменьшение размерности пространства признаков методом латентного размещения Дирихле (LDA) позволяет в ряде случаев также проводить тематическое моделирование распределения признаков.

Рассматриваются две практические задачи: (1) разделение пользователей на два класса в соответствии с требованиями таргетированной рекламной кампании; и (2) предсказание месячного дохода пользователя.

Классификаторы, обучаемые как на разреженных (логистическая регрессия, Lasso, ElasticNet), так и на сжатых векторах признаков (SVM), демонстрируют приемлемое качество (ROC-AUC, Precision/Recall, MSE) на валидационных и тестовых выборках.