Как я удалил clickstream, но его восстановили из небытия

Базы данных и системы хранения

Администрирование баз данных
Hadoop
Техдолг
Управление изменениями
Безопасная коммуникация, культура
Хранилища

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Жизненная история о том, как нечаянно стереть 200 терабайт в Hadoop, а потом несколько месяцев их восстанавливать. И как после этого донастроить data governance, чтобы такого не повторилось: начиная от админок и заканчивая TTL.

Целевая аудитория

Доклад может быть интересен всем — от администраторов систем до менеджеров.

Тезисы

У нас большая дата-платформа с несколькими системами хранения и обработки данных. Но не во всех системах есть хороший data governance и правильные процессы. Иногда это приводит к тому, что данные можно легко удалить по ошибке, что и произошло.

Но в этот раз рассказ будет не только про ошибку, но и про то, как нам удалось (почти полностью) ее исправить и что мы делаем, чтобы ее не повторить.

В программе:
* полная остановка боевого кластера Hadoop;
* поднятие еще двух кластеров для пользователей;
* восстановление данных с дисков после удаления (и очистки корзины);
* игрища с побайтовыми чтениями и поиском parquet magic numbers в петабайтном стогу сена.

Руководитель направления эксплуатации инфраструктуры данных Т-банка
До этого занимался разработкой под Oracle, управлением проектов и инженерной работой на производстве электронной компонентной базы.

Т-Банк

Команда Т-Банка — это разработчики, тестировщики, SRE-инженеры, архитекторы, аналитики, продакт-менеджеры, дизайнеры и другие специалисты. Вместе они создают финтех-продукты, которыми пользуются около 40 миллионов клиентов. Т-Банк развивает IT-индустрию, поддерживает комьюнити и делится экспертизой.

Видео

Другие доклады секции

Базы данных и системы хранения