Построение современных lakehouse-архитектур с помощью Presto

Архитектуры и масштабируемость

СУБД / DataLake / Хранимки

Распределенные системы

Архитектура данных, потоки данных, версионирование

Хранилища

Обработка данных

25 ноября, 12:20, Зал «h4»

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Из доклада вы узнаете, что же такое Lakehouse — новый подход к организации хранения данных для BI/AI/ML или очередной buzzword. А также услышите историю о том, как Lakehouse можно собрать из подручных инструментов у себя дома.

Целевая аудитория

Инженеры аналитических департаментов.

Тезисы

Скачать презентацию Все презентации конференции

Lakehouse — это современная архитектура построения аналитических платформ компаний, которая совмещает лучшие качества data warehouse и data lake. Одним из популярных продуктов для построения lakehouse-систем является Presto — массивно-параллельный распределенный SQL-движок для выполнения федеративных запросов.

В данном докладе мы обсудим основные сценарии использования и построения lakehouse-архитектур, после чего посмотрим, как техническая реализация Presto помогает создавать масштабируемые корпоративные аналитические платформы:
* дезагрегация storage и compute, которая позволяет масштабировать вычислительные ресурсы без перемещения данных;
* коннекторы к большому количеству целевых систем с возможностью гибких pushdown-вычислений;
* продвинутая работа с сырыми данными с использованием современных технологий Apache Iceberg и Delta Lake;
* кэширование сырых данных на воркерах для уменьшения latency и стоимости работы с object storages;
* высокопроизводительный массивно-параллельный компилируемый SQL-движок.

Владимир Озеров

Querify Labs

Руководит компанией Querify Labs. До этого Владимир занимался разработкой распределенных SQL-движков для Open Source-продуктов Hazelcast и Apache Ignite.

Querify Labs

Компания Querify Labs создает CedrusData — распределенный SQL-движок для обработки больших данных на основе Open Source-проекта Trino. Кроме этого, они помогают технологическим компаниям создавать высокопроизводительные СУБД.