Практики SRE на примере большого инцидента

SRE и эксплуатация систем

DevOps и системное администрирование

Отказоустойчивость

Распределенные системы

Технологии отказоустойчивости и катастрофоустойчивости, бэкапы

Менеджмент в эксплуатации

DevOps / SRE

7 ноября, 12:20, Зал «Казан»

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Сергей Киселев, специалист с 15-летним опытом в эксплуатации, препарирует один эпичный инцидент и даст рекомендации, как не допустить подобного у себя.

Целевая аудитория

SRE, разработчики, инженеры по эксплуатации, инцидент-менеджеры, техлиды.

Тезисы

Скачать презентацию Все презентации конференции

В условиях высокой нагрузки на сервисы и сложных технических проблем важно иметь эффективные практики для быстрого устранения инцидентов. Я хочу поделиться опытом решения кризисных ситуаций на примере одного из моих инцидентов, связанного с DNS, облачной инфраструктурой и человеческим фактором.

Поговорим о следующем:
* Фиксация истории релизов и ведение внутренних чендждлогов.
* Правильное выкатывание опасных изменений с использованием метрик.
* Что делать если откат не работает и нет инструментов для починки.
* Ведение лога разбора инцидента и фиксация промежуточных действий.
* Как жить без тестового контура и проверять изменения наживую.
* Работа с горящими пользователями и тревожным руководством.
* Использование аудиторов для оценки процесса разрешения проблем.
* Как правильно строить процессы разработки.
* Обратная связь от экспертных пользователей.

Сергей Киселев

MWS Cloud Platform

Главный по Development Platform в MWS Cloud Platform для разработчиков на Golang и Kotlin/Java. Отвечает за процесс найма разработчиков. Более десяти лет занимался инфраструктурой в Яндексе и делал managed-сервисы в Yandex Cloud. Разрабатывал внутренние библиотеки и инфраструктуру для других команд. В целом большой опыт разработки проектов в области дистанционного обучения, медицины, интернет-поиска, облачной инфраструктуры.