Как объединять данные из разных СУБД и делать это эффективно

Базы данных и системы хранения

Хранилища
Обработка данных
Расширение кругозора
YDB

Доклад принят в программу конференции

Мнение Программного комитета о докладе

На первый взгляд простая задача по выборке данных из разных источников быстро становится дорогой и сложной. В данном докладе посмотрим на основные проблемы и методики, позволяющие решать эту задачу на стороне федеративных БД настолько эффективно, насколько это возможно для универсальной логики.

Целевая аудитория

Разработчики и аналитики, которым необходимо работать с данными, размещёнными в различных СУБД и хранилищах.

Тезисы

Представьте, что вам необходимо выполнить анализ данных, распределённых по нескольким системам хранения: например, таблицы, размещённые в реляционных СУБД, надо объединить с CSV-файлами из S3. Что вы предпримете? Если данных немного, можно написать простой скрипт на любом ЯП, который последовательно вычитает данные из каждого источника в оперативную память и объединит их в одну таблицу, после чего её можно будет проанализировать. При этом вам придётся написать свою реализацию JOIN либо использовать для этого стороннюю библиотеку неизвестной эффективности.

Но что делать, если данных очень много, они имеют сложную структуру, а для описания аналитических операций над ними гораздо лучше подойдёт привычный и выразительный SQL? Здесь на помощь приходят СУБД и движки обработки запросов с федеративными возможностями. В этом докладе мы поговорим о принципах работы таких систем и о ключевых оптимизациях, позволяющих им быстро и эффективно извлекать и обрабатывать большие объёмы данных из внешних источников.

Разработчик на Go / Python / C++. Увлекается внутренним устройством баз данных, объектных хранилищ и в целом распределёнными системами.

Яндекс

Яндекс — технологическая компания, которая создает инновационные продукты на основе машинного обучения и нейронных сетей. Команда талантливых математиков и программистов развивает самую популярную в России поисковую систему и более 85 пользовательских сервисов, которые помогают людям в повседневных заботах.

Видео

Другие доклады секции

Базы данных и системы хранения