Настраиваем инцидент-менеджмент: от хаоса до автоматизации

DevOps и эксплуатация

Работа с инцидентами

Управление инцидентами

Google Outlook Apple

Доклад принят в программу конференции

Целевая аудитория

Практикующие инженеры/DevOps/SRE, которые регулярно дежурят и поддерживают стабильность своих сервисов. В меньшей степени этот доклад походит для лидов команд, которые строят процесс дежурства.

Тезисы

Скачать презентацию Все презентации конференции

Эволюция инцидент-менеджмента от одного дежурного до сложной системы дежурств, состоящей из команды SRE и нескольких команд разработки. Каждая команда имеет свое расписание дежурств, команды разработки дежурят по своим сервисам в течение рабочего времени, SRE являются второй линией для них и дежурят во внерабочее время.

На данный момент процесс дежурства автоматизирован от первого алерта до генерации драфта постмортема для разбора последствий инцидента.

В докладе будет описана работа текущего процесса инцидент-менеджмента и автоматики вокруг него. Для мониторинга наших сервисов мы используем схему Prometheus + Alertmanager + Pagerduty, постмортемы с недавнего времени храним в Notion, а сам процесс инцидент-менеджмента автоматизирован при помощи Slack-бота.

Сергей Бухаров

Dodo Engineering

Начинал карьеру в качестве .NET-разработчика, в данный момент SRE в Dodo Engineering.

Dodo Engineering

Dodo Brands — международная компания, развивающая 3 бренда (Dodo Pizza, Drinkit, Doner 42) в 12 странах. За 10 лет более 25 миллионов клиентов оставили информацию о себе. Совокупно более 20 000 сотрудников работает в Додо. У нас более 770 пиццерий только в России. У нас своя информационная система Додо ИС. Над этим работает в IT-блоке 170 человек, более 20 команд разработки.