Настраиваем инцидент-менеджмент: от хаоса до автоматизации
Доклад принят в программу конференции
Целевая аудитория
Тезисы
Эволюция инцидент-менеджмента от одного дежурного до сложной системы дежурств, состоящей из команды SRE и нескольких команд разработки. Каждая команда имеет свое расписание дежурств, команды разработки дежурят по своим сервисам в течение рабочего времени, SRE являются второй линией для них и дежурят во внерабочее время.
На данный момент процесс дежурства автоматизирован от первого алерта до генерации драфта постмортема для разбора последствий инцидента.
В докладе будет описана работа текущего процесса инцидент-менеджмента и автоматики вокруг него. Для мониторинга наших сервисов мы используем схему Prometheus + Alertmanager + Pagerduty, постмортемы с недавнего времени храним в Notion, а сам процесс инцидент-менеджмента автоматизирован при помощи Slack-бота.
Начинал карьеру в качестве .NET-разработчика, в данный момент SRE в Dodo Engineering.
Dodo Engineering
Видео
Другие доклады секции
DevOps и эксплуатация