Практики SRE на примере большого инцидента
Доклад принят в программу конференции
Целевая аудитория
Тезисы
В условиях высокой нагрузки на сервисы и сложных технических проблем важно иметь эффективные практики для быстрого устранения инцидентов. Я хочу поделиться опытом решения кризисных ситуаций на примере одного из моих инцидентов, связанного с DNS, облачной инфраструктурой и человеческим фактором.
Поговорим про:
* Фиксация истории релизов и ведение внутренних чендждлогов.
* Правильное выкатывание опасных изменений с использованием метрик.
* Что делать если откат не работает и нет инструментов для починки.
* Ведение лога разбора инцидента и фиксация промежуточных действий.
* Как жить без тестового контура и проверять изменения наживую.
* Работа с горящими пользователями и тревожным руководством
* Использование аудиторов для оценки процесса разрешения проблем.
* Как правильно строить процессы разработки.
* Обратная связь от экспертных пользователей.
Главный по Development Platform в MWS Cloud Platform для разработчиков на Golang и Kotlin/Java. Отвечаю за процесс найма разработчиков. До этого более 10 лет занимался инфраструктурой в Яндексе и делал managed сервисы в Yandex Cloud. Разрабатывал внутренние библиотеки и инфраструктуру для других команд. Имею большой опыт разработки проектов в области дистанционного обучения, медицины, интернет-поиска, облачной инфраструктуры.
Видео
Другие доклады секции
SRE и эксплуатация систем