Сергей Жемжицкий на HighLoad++ 2024

IDGraph: как работать с графом идентификаторов (пользователей и домохозяйств) в Apache Spark

BigData и инфраструктура машинного обучения (data engineering)

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

Data-инженеры и data-аналитики.

Тезисы

Рассмотрим, как использовать графовые алгоритмы Apache Spark для построения сквозных идентификаторов в задачах:

1) построения графа идентификаторов пользователей в онлайн-рекламе и не только:
- что делать, когда каждый сайт и партнер идентифицирует пользователя своим собственным ID?
- как понять какие идентификаторы к какому пользователю относятся?
- как из разрозненных связок различных идентификаторов пользователя построить единый профиль?

2) определения домохозяйств по находящимся/купленным в них устройствам:
- что такое "домохозяйство"?
- что делать, если сквозного идентификатора в уже существующих внешних сервисах не достаточно?
- что если ваши домашние устройства зарегистрированы на разных членов семьи?
- можно ли использовать WI-FI SSID, BSSID, IP для определения домохозяйств и что из этого может выйти?

Про все это и кое-что еще мы поговорим в рамках доклада.

Сергей Жемжицкий

Arenadata

Любит технологии и простые решения непростых задач.
Около 10 лет пытается дружить с данными, иногда получается, а иногда — не очень.
В прошлой жизни разработал несколько DMP/CDP (Data Management / Customer Data Platform).

Arenadata

Arenadata — ведущий разработчик платформы сбора и хранения данных. Платформа данных для компаний, которые хотят изменить бизнес с помощью цифровизации процессов и сложной аналитики, основанной на использовании Big Data.