Практики SRE на примере большого инцидента

SRE и эксплуатация систем

DevOps и системное администрирование
Отказоустойчивость
Распределенные системы
Технологии отказоустойчивости и катастрофоустойчивости, бэкапы
Менеджмент в эксплуатации
DevOps / SRE

Доклад принят в программу конференции

Целевая аудитория

SRE, разработчики, инженеры по эксплуатации, инцидент менеджеры, техлиды.

Тезисы

В условиях высокой нагрузки на сервисы и сложных технических проблем важно иметь эффективные практики для быстрого устранения инцидентов. Я хочу поделиться опытом решения кризисных ситуаций на примере одного из моих инцидентов, связанного с DNS, облачной инфраструктурой и человеческим фактором.

Поговорим про:
* Фиксация истории релизов и ведение внутренних чендждлогов.
* Правильное выкатывание опасных изменений с использованием метрик.
* Что делать если откат не работает и нет инструментов для починки.
* Ведение лога разбора инцидента и фиксация промежуточных действий.
* Как жить без тестового контура и проверять изменения наживую.
* Работа с горящими пользователями и тревожным руководством
* Использование аудиторов для оценки процесса разрешения проблем.
* Как правильно строить процессы разработки.
* Обратная связь от экспертных пользователей.

Сергей Киселев

МТС Web Services (MWS)

Главный по Development Platform в MWS Cloud Platform для разработчиков на Golang и Kotlin/Java. Отвечаю за процесс найма разработчиков. До этого более 10 лет занимался инфраструктурой в Яндексе и делал managed сервисы в Yandex Cloud. Разрабатывал внутренние библиотеки и инфраструктуру для других команд. Имею большой опыт разработки проектов в области дистанционного обучения, медицины, интернет-поиска, облачной инфраструктуры.

Видео