Дизастер нерекавери, или Как на очередных учениях по отказоустойчивости у нас сломались PostgreSQL-кластеры DevOps-практики и культура
В ИВИ работает больше 5 лет на должности ведущего системного администратора Linux. Отвечает за инфраструктурную составляющую биллинга.
Тезисы
В этом докладе мы расскажем вам о практике наших учений по отключению ДЦ. Поделимся одним конкретным случаем, когда у нас произошел факап, который привел к тому, что в патрони-кластере (и не одном) в строй вернулись мастера на старых таймлайнах.
В заключение расскажем о нашей культуре постмортемов, которые помогают нам каждый следующий раз становиться чуточку лучше предыдущего.
