JOIN'ы тормозят: почему Spark и Trino не заменят ваш DWH?

Базы данных и системы хранения

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Вы знаете, что такое Top-down и Bottom-up? А DPCCP и DPHyp? А хотите узнать? Приходите на доклад Алексея Дмитриева, где, помимо прочего, мы сравним Trino, Spark, Greenplum и YDB!

Целевая аудитория

Разработчики баз данных и backend-инженеры, администраторы баз данных, Data Engineers и аналитики данных, а также все, кто интересуется или использует базы данных.

Тезисы

При выборе и настройке базы данных мы часто смотрим на RPS под нагрузкой и отказоустойчивость кластера, но упускаем из виду менее очевидные характеристики.

В этом докладе я, как разработчик баз данных, расскажу о движках выполнения запросов и о том, как они влияют на поведение базы в реальных условиях, а не на искусственных бенчмарках. Каждый разработчик базы данных делает свой собственный движок, но есть общие закономерности, которые отличают «сложные» для движков запросы от «простых» и позволяют разобраться, почему вдруг вчера успешно работающий аналитический запрос, запущенный сегодня, занял в 10 раз больше времени, а может, и совсем не завершился.

Директор аналитической платформы YDB, руководитель продуктов в области систем хранения и обработки данных в Яндексе: от различных шин передачи данных до систем аналитической и потоковой обработки этих данных. До Яндекса занимался решениями в области обработки данных для управления транспортными потоками.

Видео

Другие доклады секции

Базы данных и системы хранения