Большой Мониторинг: когда Prometheus больше не один

Архитектура и масштабируемость

Архитектурные паттерны
Логирование и мониторинг

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

DevOps / SRE, Платформенные инженеры, Инженеры эксплуатации высоконагруженных систем, Техлиды, Архитекторы

Тезисы

Доклад основан на реальном production-опыте эксплуатации мониторинга объёмом ~2 ТБ метрик. Даётся честный разбор архитектурных решений, включая неудачные. Минимум теории, максимум практики, граблей и выводов

SRE / DevOps-инженер с более чем 4 годами опыта. Проектирую и эксплуатирую отказоустойчивые Kubernetes-платформы, автоматизирую CI/CD и внедряю GitOps-подходы. Много работаю с наблюдаемостью: строю мониторинг и хранение метрик на базе Prometheus и Thanos, настраиваю Grafana-дашборды и алерты под реальные SLO, а не чтобы было красиво. Регулярно занимаюсь инцидентами, миграциями и масштабированием без простоев. Пишу технические статьи на Habr (@leshoi), где делюсь практическим опытом и граблями на которые попадаю при деплое.

Видео

Другие доклады секции

Архитектура и масштабируемость