Построение современных lakehouse-архитектур с помощью Presto

Архитектуры и масштабируемость

СУБД / DataLake / Хранимки

#Распределенные системы
#Архитектура данных, потоки данных, версионирование

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Из доклада вы узнаете, что же такое Lakehouse — новый подход к организации хранения данных для BI/AI/ML или очередной buzzword. А также услышите историю о том, как Lakehouse можно собрать из подручных инструментов у себя дома.

Целевая аудитория

Инженеры аналитических департаментов.

Тезисы

Lakehouse — это современная архитектура построения аналитических платформ компаний, которая совмещает лучшие качества data warehouse и data lake. Одним из популярных продуктов для построения lakehouse-систем является Presto — массивно-параллельный распределенный SQL-движок для выполнения федеративных запросов.

В данном докладе мы обсудим основные сценарии использования и построения lakehouse-архитектур, после чего посмотрим, как техническая реализация Presto помогает создавать масштабируемые корпоративные аналитические платформы:
* дезагрегация storage и compute, которая позволяет масштабировать вычислительные ресурсы без перемещения данных;
* коннекторы к большому количеству целевых систем с возможностью гибких pushdown-вычислений;
* продвинутая работа с сырыми данными с использованием современных технологий Apache Iceberg и Delta Lake;
* кэширование сырых данных на воркерах для уменьшения latency и стоимости работы с object storages;
* высокопроизводительный массивно-параллельный компилируемый SQL-движок.

Руководит компанией Querify Labs. До этого Владимир занимался разработкой распределенных SQL-движков для OpenSource-продуктов Hazelcast и Apache Ignite.

Querify Labs

Querify Labs помогает технологическим компаниям создавать высокопроизводительные СУБД и data management-продукты.

Видео

Другие доклады секции

Архитектуры и масштабируемость