SLI и SLO для бизнеса: как следить за качеством 200+ продуктов
Доклад принят в программу конференции
Целевая аудитория
Тезисы
Мы в МТС давно поняли, что мониторинг отдельных хостов, приложений или баз данных не дает полного представления о качестве сервиса для пользователей и не прозрачен для менеджмента. Но переход к мониторингу полноценных бизнес-сценариев в масштабах 400+ продуктов оказался непростым и полным сюрпризов.
В докладе мы поговорим о том, как нам удалось описать ключевые сценарии использования наших продуктов с помощью 3500 индикаторов качества SLI и установить для них разумные целевые значения SLO. Поделимся опытом создания единого дашборд здоровья продуктов для менеджмента и собственного интерфейса для настройки расчета индикаторов на базе VictoriaMetrics и PromQL. Расскажем о том, как мы преодолели не только технические, но и организационные трудностях при внедрения нашего подхода в МТС.
Руководитель направления в МТС. Занимается развитием технологической платформы, обеспечивающей наблюдаемость процессов и систем. Внедряет и популяризирует практику наблюдаемости на IТ-ландшафте МТС. Сертифицированный владелец продукта с опытом в разработке более 10 лет.
Руководитель трайба OPS Platform в МТС Диджитал.
Более 13 лет опыта в качестве разработчика, аналитика, руководителя проектов, владельца продукта, CTO.
Видео
Другие доклады секции
Эксплуатация систем