10k метрик, 500 A/B-экспериментов и 500kk p-value каждый день. Как это возможно?

BigData и инфраструктура машинного обучения (data engineering)

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Насыщенная личным опытом история развития внутреннего проекта, масштабирования его функциональности на большую компанию и подготовка к созданию продукта. В докладе присутствует фокус на архитектуру и оптимизацию.

Целевая аудитория

Data-инженеры, Data-аналитики.

Тезисы

Скачать презентацию Все презентации конференции

В 2018 году в Авито появилось in-house-решение для автоматизации A/B-экспериментов. За несколько лет платформа выросла в зрелый продукт, с помощью которого производятся почти все релизы нового функционала Авито — это 4000+ экспериментов в год.

Одна из «фишек» нашей платформы — мы даем возможность пользователям собирать очень много информации по эксперименту: тысячи продуктовых и технических метрик, сотни разрезов (категория товара, регион и т. д.).

* Каждый день в Авито активны сотни экспериментов.
* Объем сырых данных (кликстрим и т.д.) исчисляется миллиардами строк.
* В одном эксперименте — до 30 тыс. метрико-разрезов.
* На выходе имеем около полумиллиарда рассчитанных стат. тестов (дисперсии, p-value и т.д.).

При этом весь compute мы успеваем провести за несколько часов на относительно небольшом (в масштабах Авито) кластере Trino. Расскажу об основных способах оптимизации, которые позволяют эффективно утилизировать вычислительные ресурсы.

Данила Леньков

Авито

10+ лет опыта: аналитика данных, bi, data-инжиниринг, back-end. Последние 7 лет — A/B-платформа Trisigma в Авито: создание с нуля, управление продуктом и командой разработки.