Дизастер нерекавери, или Как на очередных учениях по отказоустойчивости у нас сломались PostgreSQL-кластеры

DevOps-практики и культура

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Каждый любит истории падений. Кто тестирует на проде, тот знает им цену. Вероятно, многие, кто имел дело с распределёнными базами данных, встречался с проблемами Split Brain или перевыборами. Как обезопасить себя во время падений дата-центра, что делать во время и после инцидента — всё здесь!

Целевая аудитория

Девопсы, разработчики, релиз-менеджеры, SRE.

Тезисы

В этом докладе мы расскажем вам о практике наших учений по отключению ДЦ. Поделимся одним конкретным случаем, когда у нас произошел факап, который привел к тому, что в патрони-кластере (и не одном) в строй вернулись мастера на старых таймлайнах.

В заключение расскажем о нашей культуре постмортемов, которые помогают нам каждый следующий раз становиться чуточку меньше предыдущего.

В ИВИ работает больше 5 лет на должности ведущего системного администратора Linux. Отвечает за инфраструктурную составляющую биллинга.

ИВИ

ИВИ — один из лидеров онлайн-кинотеатров в России.

Видео