Автоматизация Postmortem: баланс между скоростью и качеством анализа критичных инцидентов

Эксплуатация систем

Доклад принят в программу конференции

Мнение Программного комитета о докладе

У всех случаются инциденты. Но правильной реакции на них не все учатся. В докладе будет освещен опыт компании МТС. Спикер расскажет, как они научились проводить postmortem-анализы, автоматизировали этот процесс и непрерывно его развивают.

Целевая аудитория

Инженеры поддержки, DevOps-инженеры, SRE-лиды, технические руководители, вовлеченные в процессы эксплуатации и надежности сервисов.

Тезисы

Postmortem-анализ — ключевой процесс для понимания причин сбоев и предотвращения их повторения на ИТ-ландшафте. ИТ-системы становятся сложнее за счет потребления сервисов друг друга (особенно это критично в экосистеме). Ручной анализ сбоев таких систем требует все больше времени и ресурсов и перестает соответствовать ожиданиям бизнеса: быстрое восстановление и глубокий анализ для предотвращения повторения.

В своем докладе поделюсь эволюцией этой практики у нас в компании: создание централизованного подразделения Mission Control Center, формализация подхода для экосистемы; уход от табличек Exсel/Word в пользу удобных инструментов; автоматизация простейших действий.

Все это позволило нам ускорить процесс анализа критичных инцидентов (с 4-6 часов до 1-2) за счет автоматизации рутинных действий. А введенный контроль качества проведенного анализа критичных инцидентов позволил продуктовым командам быстрее восстанавливать работу критически важных систем (на 26% год к году).

Сейчас мы с уверенностью смотрим в сторону гибридного подхода в автоматизации Postmortem c использованием ML-инструментов, где автоматизация разбора инцидента будет дополняться экспертной оценкой инженеров.

Руководитель Mission Control Center в ГК МТС.
Опыт в IT 20+ лет: support; развитие ITSM-процессов и их автоматизация.

Видео