SLI и SLO для бизнеса: как следить за качеством 200+ продуктов

Эксплуатация систем

Логирование и мониторинг
Менеджмент в эксплуатации
Observability в enterprise
Надёжность продакшена
Логи, метрики, ошибки
DevOps / SRE

Доклад принят в программу конференции

Целевая аудитория

SRE, PO, менеджмент

Тезисы

Мы в МТС давно поняли, что мониторинг отдельных хостов, приложений или баз данных не дает полного представления о качестве сервиса для пользователей и не прозрачен для менеджмента. Но переход к мониторингу полноценных бизнес-сценариев в масштабах 400+ продуктов оказался непростым и полным сюрпризов.

В докладе мы поговорим о том, как нам удалось описать ключевые сценарии использования наших продуктов с помощью 3500 индикаторов качества SLI и установить для них разумные целевые значения SLO. Поделимся опытом создания единого дашборд здоровья продуктов для менеджмента и собственного интерфейса для настройки расчета индикаторов на базе VictoriaMetrics и PromQL. Расскажем о том, как мы преодолели не только технические, но и организационные трудностях при внедрения нашего подхода в МТС.

Филипп Бочаров

МТС Диджитал

Руководитель направления в МТС. Занимается развитием технологической платформы, обеспечивающей наблюдаемость процессов и систем. Внедряет и популяризирует практику наблюдаемости на IТ-ландшафте МТС. Сертифицированный владелец продукта с опытом в разработке более 10 лет.

Руководитель трайба OPS Platform в МТС Диджитал.
Более 13 лет опыта в качестве разработчика, аналитика, руководителя проектов, владельца продукта, CTO.

Видео