Автоматизация PostMortem: баланс между скоростью и качеством анализа критичных инцидентов

Эксплуатация систем

Доклад принят в программу конференции

Целевая аудитория

Инженеры поддержки, DevOps-инженеры, SRE-лиды

Тезисы

Postmortem-анализ ключевой процесс для понимания причин сбоев и предотвращения их повторения на ИТ-ландшафте. ИТ-Системы становятся сложнее за счет потребления сервисов друг друга (особенно это критично в экосистеме). Ручной анализ сбоев таких систем требует все больше времени и ресурсов, и перестает соответствовать ожиданиям бизнеса: быстрое восстановление + глубокий анализ для предотвращения повторения.
В своем докладе поделюсь эволюцией этой практики у нас в компании: формализация подхода для экосистемы; уход от табличек Exсel/Word в пользу удобных инструментов; автоматизация простейших действий.
Все это позволило нам ускорить процесс анализа критичных инцидентов (с 4 – 6 часов до 1 -2 часов) за счет автоматизации рутинных действий. А введенный контроль качества проведенного анализа критичных инцидентов позволили продуктовым командам быстрее восстанавливать работу критически важных систем (на 26% год к году).
Сейчас, мы с уверенностью смотрим в сторону полной автоматизации PostMortem c использованием ML-инструментов, где автоматизация разбора инцидента будет дополняется экспертной оценкой наших инженеров.

Руководитель Mission Control Center в ГК МТС.
Опыт в IT 20+ лет: support; развитие ITSM-процессов и их автоматизация

Видео