PAX - аналог parquet/orc для Apache Cloudberry - форка Greenplum
Доклад принят в программу конференции
Целевая аудитория
Тезисы
Greenplum стал closed source. Но мы продолжаем развивать его в Apache Cloudberry. Как емко заметил в свое время Andy Pavlo, основной проблемой Greenplum было то, что никто больше не ставил его добровольно. Мы хотим это изменить. Например, добавили новый формат хранения PAX. PAX - колоночное хранилище для гибридной транзакционной и аналитической обработки. Ближайший аналог - parquet/orc. Зачем еще один формат? Краткий ответ - для производительности, потому нужны еще и улучшения в движок выполнения запросов, чтобы сделать аналог zone maps и bloom filter из parquet. Детали нового формата PAX и улучшений в движке запросов расскажу в докладе.
В Яндексе с 2011 года. Начинал свой путь с администрирования больших коммерческих баз данных и аналитики, сейчас занимается разработкой сервиса управляемых баз данных Greenplum в Yandex Cloud.
Защитил диссертацию по оптимизации запросов в базы данных в МАИ.
Видео
Другие доклады секции
Базы данных и системы хранения