Владимир Озеров на HighLoad++ 2023

Быстрая обработка данных в data lake с помощью SQL

BigData и машинное обучение

Инфраструктура ML

Оптимизация производительности

Обработка данных

28 ноября, 11:10, Зал «Мумбай (2 этаж)»

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

В своем докладе Владимир расскажет, как реализованы различные оптимизации SQL-движков для эффективной работы с data lake.

Целевая аудитория

Инженеры данных, архитекторы.

Тезисы

Скачать презентацию Все презентации конференции

Популярные распределенные SQL-движки, такие как Trino, Presto и Dremio, умеют выполнять SQL-запросы непосредственно к файлам в озере данных, что позволяет компаниям более гибко и эффективно анализировать свои данные за счет уменьшения потребности в ETL и снижения нагрузки на корпоративное хранилище. Подобные продукты используют принцип разделения compute и storage, при котором обработка и хранение данных происходит на разных серверах. Несмотря на многочисленные преимущества, разделение compute и storage приводит к серьезному вызову: как обеспечить высокую производительность обработки информации, хранящейся на удаленных серверах? Конкурентоспособен ли такой подход по сравнению с классическими хранилищами данных?

В докладе мы рассмотрим реализацию ключевых оптимизаций, которые позволяют Trino, Presto и Dremio быстро «перемалывать» данные из вашего озера: использование метаданных Parquet и ORC для уменьшения количества зачитываемых данных (partition pruning, project/filter/aggregate pushdown), динамическая фильтрация (runtime filtering), материализованные представления (materialized views), а также многочисленные кэши: кэш метаданных, кэш данных и кэш промежуточных результатов запросов.

Владимир Озеров

Querify Labs

Руководит компанией Querify Labs. До этого Владимир занимался разработкой распределенных SQL-движков для Open Source-продуктов Hazelcast и Apache Ignite.

Querify Labs

Компания Querify Labs создает CedrusData — распределенный SQL-движок для обработки больших данных на основе Open Source-проекта Trino. Кроме этого, они помогают технологическим компаниям создавать высокопроизводительные СУБД.