Конференция завершена. Ждем вас на HighLoad++ в следующий раз!

Настраиваем инцидент-менеджмент: от хаоса до автоматизации

Работа с инцидентами

Доклад принят в программу конференции

Тезисы

Эволюция инцидент-менеджмента от одного дежурного до сложной системы дежурств, состоящей из команды SRE и нескольких команд разработки. Каждая команда имеет свое расписание дежурств, команды разработки дежурят по своим сервисам в течение рабочего времени, SRE являются второй линией для них и дежурят во внерабочее время.

На данный момент процесс дежурства автоматизирован от первого алерта до генерации драфта постмортема для разбора последствий инцидента.

В докладе будет описана работа текущего процесса инцидент-менеджмента и автоматики вокруг него. Для мониторинга наших сервисов мы используем схему Prometheus + Alertmanager + Pagerduty, постмортемы с недавнего времени храним в Notion, а сам процесс инцидент-менеджмента автоматизирован при помощи Slack-бота.

Начинал карьеру в качестве .NET-разработчика, в данный момент SRE в Dodo Engineering.

Dodo Engineering

Видео