Аналитика на больших графах в S3: инструменты, подходы и форматы для OLTP и OLAP

Базы данных и системы хранения

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Как эффективно анализировать большой граф, хранящийся в S3, запросами типа OLAP и OLTP? В докладе Алексей Теплов из R&D-центра Т‑Банка поделится опытом аналитики и подготовки фич для моделей из графа в DuckDB+DuckPGQ и сравнит преимущества форматов хранения Parquet+Iceberg и GraphAr от Alibaba.

Целевая аудитория

Инженеры данных, архитекторы, аналитики данных, инженеры-исследователи, ML-аналитики, Data Science-инженеры.

Тезисы

Часто при работе с графами требуются инструменты для быстрой аналитики, проверки гипотез и прототипирования алгоритмов с высокой производительностью. У таких задач часто нет высоких требований к частоте запросов, но если граф слишком большой для Python, результатом аналитики является сравнимый по размеру граф, а результаты нужны очень быстро, то не всегда и графовая БД является удобным решением. Альтернативой может быть хранение в S3 исходного графа свойств (LPG) и результатов аналитики.

Наша команда анализирует графы крупного размера (~1 млрд вершин, ~50 млрд ребер с историей изменений) в облачной инфраструктуре, мы быстро вычисляем метрики, где необходимо обработать большую часть графа (OLAP и Graphalytics) для фич и и точечных запросов для OLTP-сценариев аналитики. Например, PageRank рассчитываем за 25 минут, Jaccard — за 100 минут.

В докладе поделимся опытом работы с JanusGraph поверх Cassandra, DuckDB с расширением DuckPGQ и GraphScope. Расскажем о производительности решений для работы с графами в S3. Покажем результаты сравнения форматов хранения LPG: от Parguet и Iceberg до нового GraphAR от Alibaba, с обсуждением их преимуществ и ограничений в сценариях аналитики (OLAP и OLTP).

Доклад будет интересен исследователям и разработчикам Big Data, специалистам по графовой аналитике и архитекторам распределенных систем.

Архитектор в R&D-центре Т-Банка. Исследует распределенные системы хранения и обработки больших данных, ранее руководил исследованиями в области решений на больших данных в лаборатории ASTL Huawei, разрабатывал хранилища данных в Центральном Банке и занимался исследованием эффективности распределенных вычислений в НИВЦ МГУ.

Видео

Другие доклады секции

Базы данных и системы хранения