Быстрая обработка данных в data lake с помощью SQL
Доклад принят в программу конференции
Целевая аудитория
Тезисы
Популярные распределенные SQL-движки, такие как Trino, Presto и Dremio, умеют выполнять SQL-запросы непосредственно к файлам в озере данных, что позволяет компаниям более гибко и эффективно анализровать свои данные за счет уменьшения потребности в ETL и снижения нагрузки на корпоративное хранилище. Подобные продукты используют принцип разделения compute и storage, при котором обработка и хранение данных происходит на разных серверах. Несмотря на многочисленные преимущества, разделение compute и storage приводит к серьезному вызову: как обеспечить высокую производительность обработки информации, хранящейся на удаленных серверах? Конкурентоспособен ли такой подход по сравнению с классическими хранилищами данных?
В докладе мы рассмотрим реализацию ключевых оптимизаций, которые позволяют Trino, Presto и Dremio быстро "перемалывать" данные из вашего озера: использование метаданных Parquet и ORC для уменьшения количества зачитываемых данных (partition pruning, project/filter/aggregate pushdown), динамическая фильтрация (runtime filtering), материализованные представления (materialized views), а так же многочисленные кэши: кэш метаданных, кэш данных и кэш промежуточных результатов запросов.
Руководит компанией Querify Labs. До этого Владимир занимался разработкой распределенных SQL-движков для OpenSource-продуктов Hazelcast и Apache Ignite.
Querify Labs
Видео
Другие доклады секции
BigData и машинное обучение