Нереляционные системы хранения данных (HCS: хранение и обработка сверхбольших объемов иерархических данных) Основная секция
Тезисы
Нереляционные системы хранения данных / Павел Уваров
Тезисы
Цель доклада познакомить слушателей с концепцией потоковых баз данных, их достоинствами, недостатками и областью применимости.
Когда данных становится так много, что уместить их в обычную реляционную БД, такую как MySQL, становится проблематичным, приходится думать, как удобно организовать их хранение и обработку без лишних накладных расходов. Использование специально заточенных форматов негибко и трудоемко, поэтому нужно искать золотую середину между гибкостью универсальной БД и оптимальностью специальных форматов.
Так как данных очень много, то и обрабатывать их приходится большими пачками, поэтому мы неизбежно приходим к тому, чтобы ограничиться последовательной обработкой. Так возникает термин «потоковая база данных», т. е. БД, основанная на последовательной (пото- ковой) обработке.
Рассматривается пример реализации этой БД в Рамблере под названием HCS (Hierarchically Compressed Stream).
Помимо последовательного доступа, БД имеет возможность ограниченного случайного доступа, что делает ее привлекательным средством для построения поисковых индексов.
Целевая аудитория
Аудитория доклада специалисты среднего и высокого уровня, участвующие в проектах (например, поисковик) по хранению, обработке и использованию сверхбольших объемов данных, иерархических по природе.О докладчике
Павел Уваров, руководитель отдела поисковых технологий в Рамблере.
Контакты: puvar@rambler-co.ru