PAX - аналог parquet/orc для Apache Cloudberry - форка Greenplum
Доклад принят в программу конференции
Целевая аудитория
Тезисы
Greenplum стал closed source. Но мы продолжаем развивать его в Apache Cloudberry.
Как развиваем: например, добавили новый формат хранения PAX. PAX - колоночное хранилище для гибридной транзакционной и аналитической обработки. Его можно сравнить с parquet/orc, но есть ряд отличий, больше характерных для подхода Partition Attributes Across by Anastassia Ailamaki et all https://vldb.org/conf/2001/P169.pdf
В Greenplum уже было два формата хранения: строчная модель, ее Greenplum получил от Postgres. И колоночная модель хранения, называется append-optimized column-oriented, она уникальна для Greenplum. Зачем еще один формат? Краткий ответ - потому нужны еще и улучшения в движок выполнения запросов, аналог zone maps и bloom filter из parquet. Детали нового формата PAX и улучшений в движке запросов расскажу в докладе.
Сейчас ядро Apache Cloudberry - уже не древний Postgres 9.3, а относительно свежий Postgres 14. И процесс обновления продолжаем, сейчас в работе обновление до Postgres 16.
Совместимость улучшилась, новый формат PAX (как и Apache Cloudberry в целом) теперь может быть интересен не только пользователям Greenplum, но и Postgres.
В Яндексе с 2011 года. Начинал свой путь с администрирования больших коммерческих баз данных и аналитики, сейчас занимается разработкой сервиса управляемых баз данных Greenplum в Yandex Cloud.
Защитил диссертацию по оптимизации запросов в базы данных в МАИ.
Видео
Другие доклады секции
Базы данных и системы хранения