Аналитика на больших графах в S3: Инструменты, подходы и форматы для OLTP и OLAP

Базы данных и системы хранения

Доклад принят в программу конференции

Целевая аудитория

инженеры данных, архитекторы, аналитики данных, инженеры исследователи, ML-аналитики, Data-scince инженеры

Тезисы

В современных сценариях аналитики на графах требуется набор инструментов, позволяющих быстро прототипировать алгоритмы для вычисления метрик и проверки гипотез с высокой производительностью, при этом не предъявляя критически высоких требований к количеству запросов в секунду. В таких случаях работа напрямую с графовыми базами данных становится сложной для хранения и обработки огромных объёмов результатов, поэтому удобнее сохранять файлы с данными, например, в S3.

В докладе поделимся опытом работы с аналитикой на графовой базе данных JanusGraph на базе Cassandra и проблемами с которыми столкнулись, а также опытом работы с расширением duckpgq для DuckDB, поговорим про наш опыт работы с пакетом GraphScope. Будут представлены предварительные результаты тестирования производительности этих систем, которые мы аккуратно сейчас собираем.

Опыт работы нашей команды основан на выстраивании аналитики с крупными графами, содержащими около 1 млрд. вершин и около 50 млрд. ребер, с историческими изменениями. На графе мы научились быстро вычислять метрики вроде центральности или схожести (Pagerank за 25 минут, Jaccard за 2 часа) и работу с окружениями и уперлись в проблемы работы с результатами расчетов из которых считаем фичи для моделей. Результаты расчетов тоже становятся графом в котором уже работают OLTP сценарии. Потому мы научились быстро работать с сотнями гигабайт данных результатов расчетов на графе и расскажем об опыте исследований представления данных Labeled Property Graph (LPG) в инфраструктуре Data LakeHouse, проведём сравнительный анализ форматов файлового хранения (Parquet, Apache Iceberg) и нового формата GraphAr от Alibaba, расскажем про их преимущества и ограничения для масштабной аналитики включающей OLAP и OLTP сценарии.

Доклад будет интересен исследователям и разработчикам в области Big Data, специалистам по графовой аналитике, архитекторам распределённых систем и всем, кто работает с аналитикой на графах в современных облачных инфраструктурах.

Архитектор в R&D Центре Т-Банка, исследую распределенные системы хранения и обработки больших данных, ранее руководил исследованиями в области решений в больших данных в лаборатории ASTL Huawei, разрабатывал хранилища данных в Центральном Банке и занимался исследованием эффективности распределенных вычислений в НИВЦ МГУ.

Т-Банк R&D

R&D центр создан в Т-Банк для создания инновационных решений в инфраструктуре Т-Банка.

Видео