Инженерия стратификации A/B-тестов в системах персонализации на десятках миллионов клиентов

Data Engineering

PostgreSQL

Базы данных / другое

Архитектура данных, потоки данных, версионирование

Продуктовая разработка

Hadoop

Обработка данных

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

Data Engineers и backend-разработчики, работающие с большими данными и высоконагруженными системами. Доклад будет интересен специалистам, погружённым в построение масштабируемых data-платформ. А так же для всех, кому интересны задачи A/B-тестирования с инженерной точки зрения

Тезисы

Маркетинг в Х5 столкнулся с проблемой повышения эффективности акций путем персонализации предложений для 70+ миллионов активных клиентов. Переход от массовых рассылок к персональным потребовал не только сбора 200+ признаков на каждого клиента, но и создания надёжной системы A/B-тестирования.

Ключевой вызов: как корректно разделить миллионы пользователей на контрольную и целевую группы, чтобы честно измерить эффект? Простая рандомизация искажает результаты — нужна стратификация по десяткам признаков.

Доклад покажет архитектуру сервиса стратификации, который работает с сегментами в миллионы пользователей за приемлемое время. Вы узнаете, почему Redis победил PostgreSQL и HBase в бенчмарках для материализации feature-векторов, как через Spark и UDF организована загрузка данных, и почему команда пришла к эволюции подхода — от предварительной стратификации к пост-стратификации во время анализа эффектов.

Что заберёте с собой:
• Архитектурные паттерны для построения сервисов стратификации на больших данных.
• Сравнительные бенчмарки Redis, PostgreSQL, HBase с конкретными цифрами производительности для вашего выбора хранилища.
• Готовые решения по интеграции Spark, pandas и DS-библиотек для обработки миллионов записей.
• Понимание ограничений стратификации и альтернативный подход через пост-стратификацию.
• Инженерные уроки масштабирования A/B-тестирования в продакшене.

Илья Панов

X5 Tech

Data Engineer с более чем 10-летним опытом разработки и развития data-платформ в телекоме и ритейле. Работал с большими объёмами данных в государственных структурах и коммерческих компаниях, участвовал в создании высоконагруженных аналитических и продуктовых систем