Виталий Исаев на HighLoad++ 2024

Как объединять данные из разных СУБД и делать это эффективно

Базы данных и системы хранения

Хранилища

Обработка данных

Расширение кругозора

YDB

3 декабря, 11:10, Зал «01. Конгресс-холл»

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

На первый взгляд простая задача по выборке данных из разных источников быстро становится дорогой и сложной. В данном докладе посмотрим на основные проблемы и методики, позволяющие решать эту задачу на стороне федеративных БД настолько эффективно, насколько это возможно для универсальной логики.

Целевая аудитория

Разработчики и аналитики, которым необходимо работать с данными, размещёнными в различных СУБД и хранилищах.

Тезисы

Скачать презентацию Все презентации конференции

Представьте, что вам необходимо выполнить анализ данных, распределённых по нескольким системам хранения: например, таблицы, размещённые в реляционных СУБД, надо объединить с CSV-файлами из S3. Что вы предпримете? Если данных немного, можно написать простой скрипт на любом ЯП, который последовательно вычитает данные из каждого источника в оперативную память и объединит их в одну таблицу, после чего её можно будет проанализировать. При этом вам придётся написать свою реализацию JOIN либо использовать для этого стороннюю библиотеку неизвестной эффективности.

Но что делать, если данных очень много, они имеют сложную структуру, а для описания аналитических операций над ними гораздо лучше подойдёт привычный и выразительный SQL? Здесь на помощь приходят СУБД и движки обработки запросов с федеративными возможностями. В этом докладе мы поговорим о принципах работы таких систем и о ключевых оптимизациях, позволяющих им быстро и эффективно извлекать и обрабатывать большие объёмы данных из внешних источников.

Виталий Исаев

Яндекс

Разработчик на Go/Python/C++. Увлекается внутренним устройством баз данных, объектных хранилищ и в целом распределенными системами.

Яндекс

Яндекс — технологическая компания, которая создает инновационные продукты на основе машинного обучения и нейронных сетей. Команда талантливых математиков и программистов развивает самую популярную в России поисковую систему и более 85 пользовательских сервисов, которые помогают людям в повседневных заботах.