10k метрик, 500 A/B-экспериментов и 500kk p-value каждый день. Как это возможно?

BigData и инфраструктура машинного обучения (data engineering)

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Насыщенная личным опытом история развития внутреннего проекта, масштабирования его функциональности на большую компанию и подготовка к созданию продукта. В докладе присутствует фокус на архитектуру и оптимизацию.

Целевая аудитория

Data-инженеры, Data-аналитики.

Тезисы

В 2018 году в Авито появилось in-house-решение для автоматизации A/B-экспериментов. За несколько лет платформа выросла в зрелый продукт, с помощью которого производятся почти все релизы нового функционала Авито — это 4000+ экспериментов в год.

Одна из «фишек» нашей платформы — мы даем возможность пользователям собирать очень много информации по эксперименту: тысячи продуктовых и технических метрик, сотни разрезов (категория товара, регион и т. д.).

* Каждый день в Авито активны сотни экспериментов.
* Объем сырых данных (кликстрим и т.д.) исчисляется миллиардами строк.
* В одном эксперименте — до 30 тыс. метрико-разрезов.
* На выходе имеем около полумиллиарда рассчитанных стат. тестов (дисперсии, p-value и т.д.).

При этом весь compute мы успеваем провести за несколько часов на относительно небольшом (в масштабах Авито) кластере Trino. Расскажу об основных способах оптимизации, которые позволяют эффективно утилизировать вычислительные ресурсы.

10+ лет опыта: аналитика данных, bi, data-инжиниринг, back-end. Последние 7 лет — A/B-платформа Trisigma в Авито: создание с нуля, управление продуктом и командой разработки.

Видео