Практики SRE на примере большого инцидента
Доклад принят в программу конференции
Целевая аудитория
Тезисы
У меня есть большой опыт решения инцидентов на нагруженных сервисах. Я часто беру на себя роль инцидент менеджера для разрешения кризисных ситуаций. Хочу поделиться с вами важными практиками для устранения проблем на проде на примере одного моего инцидента.
Эта история связана с DNS, облачной инфраструктурой, и человеческим фактором. На контур приходила очень высокая нагрузка и не все наши шаги для починки были верными. Инструменты не показывали проблему. Я сгорел во время этого инцидента и больно было не только моим пользователям.
Хочу рассказать про:
* Важность фиксации истории релизов и ведения внутренних чендждлогов
* Как правильно выкатывать опасные изменения (метрики) и почему это процесс а не разовая акция
* Что делать если откат не работает и нет инструментов для починки
* Ведение лога разбора инцидента и фиксация промежуточных действий
* Проверка масштабирования наживую и инструменты собранные на коленке
* Как правильно работать с горящими пользователя и тревожным руководством
* Почему стоит смотреть на проблему с других сторон и как не зашорить взгляд
* Как правильно строить процессы разработки и почему эти правила написаны кровью
* Почему важно иметь обратную связь от экспертных пользователей и реагировать на их проблемы
В IT более 20 лет. 10 лет делал в Яндексе поисковые и инфраструктурные сервисы. Сейчас строит Development Platform в МТС Облаке (MWS/CloudMTS). Богатый опыт серверной разработки проектов в областях дистанционного обучения, медицины, интернет поиска, облачной инфраструктуры
Видео
Другие доклады секции
SRE и эксплуатация систем