Чем меньше размер данных, тем дешевле их хранить и часто быстрее обрабатывать. Разработчики баз данных издавна задумывались над тем, как обеспечить максимальную степень сжатия данных.
В данном докладе мы рассмотрим, почему интерес к компрессии информации в базах данных особенно высок в последние годы. Мы также рассмотрим различные подходы к уменьшению размера хранимых данных, включая:
- дедубликацию данных;
- префикс-компрессию индексов;
- компрессию на уровне файловой системы;
- поколоночное хранение данных;
- постраничную компрессию (на примере хранилища Innodb);
- компрессию во фрактальных и LSM деревьях;
- компрессию путем "прокалывания дырок" в файлах;
- компрессию данных на уровне пользователя.