Внутри Метастора S3: эволюция современного хранилища метаданных

Базы данных и системы хранения

Java

Хранилища

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

Разработчики S3-совместимых или других хранилищ данных. Разработчики высоконагруженных систем с большим объемом метаданных и асинхронной обработкой

Тезисы

Метастор в S3-совместимом хранилище - это сердце системы: он хранит все данные кроме содержания объектов, проводит через себя как объемную клиентскую нагрузку, так и тяжелые асинхронные фоновые операции по сбору статистики, выполнению правил жизненного цикла или обслуживанию внутренних структур. Мы прошли несколько итераций в развитии нашего метастора на базе Cassandra и готовы поделиться опытом в построении современного хранилища метаданных для S3.

В докладе обсудим: * Как эффективно сканировать миллиарды версий объектов, не перегружая систему; * Как собирать статистику по бакетам в реальном времени; * Как быстро искать пустые директории в метаданных с помощью фильтра Блума; * Почему использовать Cassandra как очередь - плохая идея.

Доклад будет полезен другим разработчикам S3-совместимых хранилищ и всем, кто проектирует высоконагруженные системы с большим объемом метаданных и асинхронной обработкой.

Данил Кислов

Backend разработчик с опытом в Java и Python. Закончил Университет ИТМО по направлению «Прикладная математика и информатика». Интересуется распределенными системами и формальными методами верификации. Сейчас работает в команде разработки хранилищ для внутреннего облака One Cloud в VK.