Спроектировать хранилище данных, казалось бы, не сложно.
Собрать требования -> построить модель данных -> реализовать ETL.
Но проходит год-два, и рост объема данных, и, главное, рост сложности данных приводит хранилище на грань работоспособности.
В докладе будет проиллюстрировано, как Big Data хранилище Авито экспоненциально увеличивалось в размерах данных и сложности их взаимосвязей вместе с ростом объема и сложности бизнеса компании, сохраняя скорость выполнения запросов.
Будет обосновано, почему следование ограничениям 6-й нормальной формы (Anchor Modeling) помогает не утонуть в новых данных и успешно масштабировать нагрузку в условиях MPP СУБД.
В качестве финального штриха будет рассказано, как высоконормализованная модель данных Anchor Modeling позволяет малыми усилиями сделать шаг за пределы СУБД к хранению части данных в виде (ORC) файлов в распределенной файловой системе (HDFS) к сохранению для пользователей возможности работать со всеми данными посредством (почти) обычного SQL (без Hive).