Крупнейшая профессиональная конференция для разработчиков высоконагруженных систем

Как я удалил clickstream, но его восстановили из небытия

Базы данных и системы хранения

Администрирование баз данных
Hadoop
Техдолг
Управление изменениями
Безопасная коммуникация, культура
Хранилища

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Жизненная история о том, как нечаянно стереть 200 терабайт в Hadoop, а потом несколько месяцев их восстанавливать. И как после донастроить data governance, чтобы такого не повторилось: начиная от админок и заканчивая TTL.

Целевая аудитория

Доклад может быть интересен всем - от администраторов систем до менеджеров

Тезисы

У нас большая дата платформа с несколькими системами хранения и обработки данных. Но не во всех системах есть хороший data governance и правильные процессы. Иногда это приводит к тому, что данные можно легко удалить по ошибке, что и произошло.
Но в этот раз рассказ будет не только про ошибку, но и про то, как нам удалось (почти полностью) ее исправить и что мы делаем, чтобы ее не повторить.
В программе:
- полная остановка боевого кластера Hadoop
- поднятие еще двух кластеров для пользователей
- восстановление данных с дисков после удаления (и очистки корзины)
- игрища с побайтовыми чтениями и поиском parquet magic numbers в петабайтном стогу сена

Руководитель направления эксплуатации инфраструктуры данных Т-банка
До этого занимался разработкой под Oracle, управлением проектов и инженерной работой на производстве электронной компонентной базы.

Т-Банк

Команда Т-Банка — это разработчики, тестировщики, SRE-инженеры, архитекторы, аналитики, продакт-менеджеры, дизайнеры и другие специалисты. Вместе они создают финтех-продукты, которыми пользуются около 40 миллионов клиентов. Т-Банк развивает ИТ-индустрию, поддерживает комьюнити и делится экспертизой.

Видео

Другие доклады секции

Базы данных и системы хранения