В этом докладе я расскажу, как мы в Почте@mail.ru разрабатывали и внедряли новую систему хранения аттачей из писем.
Основные вопросы, которые будут изложены в докладе:
- Архитектура хранилища с дедупликацией.
- За счет чего мы сэкономили 18Пб, и как защититься от возможных ошибок при этом.
- Как смигрировать 50Пб данных в новую схему in-place и без даунтайма.
Доклад состоит из трех частей.
1. В первой я расскажу, как построить систему, которая принимает 80 000 файлов в минуту, на лету вычисляет дубли и сохраняет их. Как для этого организована система хранения метаинформации, чтобы на нее хватило оперативной памяти.
2. Во второй расскажу, какие нужны инструменты для обеспечения своевременного нахождения проблем в холодных данных. Жесткие диски, к сожалению, не вечны, а данные пользователя терять нельзя.
3. И, наконец, в третьей - как в эту систему перелить уже существующие 50 Пб данных, не используя нового железа.