PAX - аналог parquet/orc для Apache Cloudberry - форка Greenplum

Базы данных и системы хранения

Доклад принят в программу конференции

Целевая аудитория

Разработчики баз данных, аналитики, data engineer, системные администраторы

Тезисы

Greenplum стал closed source. Но мы продолжаем развивать его в Apache Cloudberry.

Как развиваем: например, добавили новый формат хранения PAX. PAX - колоночное хранилище для гибридной транзакционной и аналитической обработки. Его можно сравнить с parquet/orc, но есть ряд отличий, больше характерных для подхода Partition Attributes Across by Anastassia Ailamaki et all https://vldb.org/conf/2001/P169.pdf

В Greenplum уже было два формата хранения: строчная модель, ее Greenplum получил от Postgres. И колоночная модель хранения, называется append-optimized column-oriented, она уникальна для Greenplum. Зачем еще один формат? Краткий ответ - потому нужны еще и улучшения в движок выполнения запросов, аналог zone maps и bloom filter из parquet. Детали нового формата PAX и улучшений в движке запросов расскажу в докладе.

Сейчас ядро Apache Cloudberry - уже не древний Postgres 9.3, а относительно свежий Postgres 14. И процесс обновления продолжаем, сейчас в работе обновление до Postgres 16.

Совместимость улучшилась, новый формат PAX (как и Apache Cloudberry в целом) теперь может быть интересен не только пользователям Greenplum, но и Postgres.

В Яндексе с 2011 года. Начинал свой путь с администрирования больших коммерческих баз данных и аналитики, сейчас занимается разработкой сервиса управляемых баз данных Greenplum в Yandex Cloud.
Защитил диссертацию по оптимизации запросов в базы данных в МАИ.

Видео