PAX - аналог parquet/orc для Apache Cloudberry - форка Greenplum

Базы данных и системы хранения

Доклад принят в программу конференции

Целевая аудитория

Разработчики баз данных, аналитики, data engineer, системные администраторы

Тезисы

Greenplum стал closed source. Но мы продолжаем развивать его в Apache Cloudberry. Как емко заметил в свое время Andy Pavlo, основной проблемой Greenplum было то, что никто больше не ставил его добровольно. Мы хотим это изменить. Например, добавили новый формат хранения PAX. PAX - колоночное хранилище для гибридной транзакционной и аналитической обработки. Ближайший аналог - parquet/orc. Зачем еще один формат? Краткий ответ - для производительности, потому нужны еще и улучшения в движок выполнения запросов, чтобы сделать аналог zone maps и bloom filter из parquet. Детали нового формата PAX и улучшений в движке запросов расскажу в докладе.

В Яндексе с 2011 года. Начинал свой путь с администрирования больших коммерческих баз данных и аналитики, сейчас занимается разработкой сервиса управляемых баз данных Greenplum в Yandex Cloud.
Защитил диссертацию по оптимизации запросов в базы данных в МАИ.

Видео