Аналитика на больших графах в S3: Инструменты, подходы и форматы для OLTP и OLAP

Базы данных и системы хранения

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Как эффективно анализировать большой граф, хранящийся в S3 запросами типа OLAP и OLTP? В докладе из R&D центра Т‑Банка Алексей Теплов поделится опытом аналитики и подготовки фич для моделей из графа в DuckDB+DuckPGQ, и сравнит преимущества форматов хранения Parquet+Iceberg и GraphAr от Alibaba.

Целевая аудитория

инженеры данных, архитекторы, аналитики данных, инженеры исследователи, ML-аналитики, Data-scince инженеры

Тезисы

Часто при работе с графами требуются инструменты для быстрой аналитики, проверки гипотез и прототипирования алгоритмов с высокой производительностью. У таких задач часто нет высоких требований к частоте запросов, но если граф слишком большой для Python, результатом аналитики является сравнимый по размеру граф, а результаты нужны очень быстро, то не всегда и графовая БД является удобным решением. Альтернативой может быть хранить в S3 исходный граф свойств (LPG) и результаты аналитики.

Наша команда анализирует графы крупного размера (~1 млрд вершин, ~50 млрд ребер с историей изменений) в облачной инфраструктуре, мы быстро вычисляем метрики, где необходимо обработать большую часть графа (OLAP и Graphalytics) для фич и и точечных запросов для OLTP-сценариев аналитики. Например, PageRank рассчитываем за 25 минут, Jaccard за 100 минут.

В докладе мы поделимся опытом работы с JanusGraph поверх Cassandra, DuckDB с расширением DuckPGQ и GraphScope. Расскажем о производительности решений для работы с графами в S3. Покажем результаты сравнения форматов хранения LPG: от Parguet и Iceberg до нового GraphAR от Alibaba, с обсуждением их преимуществ и ограничений в сценариях аналитики (OLAP и OLTP).

Доклад будет интересен исследователям и разработчикам Big Data, специалистам по графовой аналитике и архитекторам распределённых систем.

Архитектор в R&D Центре Т-Банка, исследую распределенные системы хранения и обработки больших данных, ранее руководил исследованиями в области решений в больших данных в лаборатории ASTL Huawei, разрабатывал хранилища данных в Центральном Банке и занимался исследованием эффективности распределенных вычислений в НИВЦ МГУ.

Видео

Другие доклады секции

Базы данных и системы хранения