Крупнейшая профессиональная конференция для разработчиков высоконагруженных систем

Быстрая обработка данных в data lake с помощью SQL

BigData и машинное обучение

Оптимизация производительности
Обработка данных

Доклад принят в программу конференции

Целевая аудитория

Инженеры данных, архитекторы

Тезисы

Популярные распределенные SQL-движки, такие как Trino, Presto и Dremio, умеют выполнять SQL-запросы непосредственно к файлам в озере данных, что позволяет компаниям более гибко и эффективно анализровать свои данные за счет уменьшения потребности в ETL и снижения нагрузки на корпоративное хранилище. Подобные продукты используют принцип разделения compute и storage, при котором обработка и хранение данных происходит на разных серверах. Несмотря на многочисленные преимущества, разделение compute и storage приводит к серьезному вызову: как обеспечить высокую производительность обработки информации, хранящейся на удаленных серверах? Конкурентоспособен ли такой подход по сравнению с классическими хранилищами данных?
В докладе мы рассмотрим реализацию ключевых оптимизаций, которые позволяют Trino, Presto и Dremio быстро "перемалывать" данные из вашего озера: использование метаданных Parquet и ORC для уменьшения количества зачитываемых данных (partition pruning, project/filter/aggregate pushdown), динамическая фильтрация (runtime filtering), материализованные представления (materialized views), а так же многочисленные кэши: кэш метаданных, кэш данных и кэш промежуточных результатов запросов.

Руководит компанией Querify Labs. До этого Владимир занимался разработкой распределенных SQL-движков для OpenSource-продуктов Hazelcast и Apache Ignite.

Querify Labs

Компания Querify Labs создает CedrusData — распределенный SQL-движок для обработки больших данных на основе open-source проекта Trino. Кроме этого мы помогаем технологическим компаниям создавать высокопроизводительные СУБД.

Видео

Другие доклады секции

BigData и машинное обучение