Иллюзия стабильности: как мониторинг нас обманывает

SRE и эксплуатация систем

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

Все, кто эксплуатирует свои сервисы в продакшене

Тезисы

Мы привыкли доверять графикам: если линия ровная — значит система стабильна. Но на практике мониторинг часто создаёт опасную иллюзию контроля. Пропущенные точки, агрегации, сбросы счётчиков и «no data» превращаются в спокойные дашборды ровно в тот момент, когда у пользователей всё ломается.

В этом докладе я разберу типовые «обманки» мониторинга — ситуации, в которых метрики выглядят здоровыми, но на самом деле скрывают реальные проблемы. На реальных примерах покажу, как Grafana и Prometheus могут искажать картину, почему средние и даже percentiles врут, и какие слепые зоны есть почти в каждом продакшене.

Доклад не про «давайте добавим ещё метрик», а про то, как понимать ограничения мониторинга и не принимать ложное спокойствие за надёжность.

Видео