10k метрик, 500 A/B-экспериментов и 500kk p-value каждый день. Как это возможно?

BigData и инфраструктура машинного обучения (data engineering)

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Насыщенная личным опытом история развития внутреннего проекта, масштабирования его функциональности на большую компанию и подготовка к созданию продукта. В докладе присутствует фокус на архитектуру и оптимизацию.

Целевая аудитория

data-инженеры, data-аналитики

Тезисы

В 2018 году в Авито появилось in-house решение для автоматизации A/B-экспериментов. За несколько лет платформа выросла в зрелый продукт, с помощью которого производятся почти все релизы нового функционала Авито — это 4000+ экспериментов в год.

Одна из «фишек» нашей платформы — мы даем возможность пользователям собирать очень много информации по эксперименту: тысячи продуктовых и технических метрик, сотни разрезов (категория товара, регион, и т. д.).

* Каждый день в Авито активны сотни экспериментов
* Объем сырых данных (кликстрим и тд) исчисляется миллиардами строк
* В одном эксперименте — до 30 тыс. метрико-разрезов
* На выходе имеем около полу-миллиарда рассчитанных стат. тестов (дисперсии, p-value и тд)

При этом весь compute мы успеваем провести за несколько часов на относительно небольшом (в масштабах Авито) кластере Trino. Расскажу об основных способах оптимизации, которые позволяют эффективно утилизировать вычислительные ресурсы.

10+ лет опыта: аналитика данных, bi, data-инжиниринг, back-end. Последние 7 лет — A/B-платформа Trisigma в Авито: создание с нуля, управление продуктом и командой разработки.

Видео