Большой Мониторинг: когда Prometheus больше не один
Программный комитет ещё не принял решения по этому докладу
Целевая аудитория
Тезисы
Доклад основан на реальном production-опыте эксплуатации мониторинга объёмом ~2 ТБ метрик. Даётся честный разбор архитектурных решений, включая неудачные. Минимум теории, максимум практики, граблей и выводов
SRE / DevOps-инженер с более чем 4 годами опыта. Проектирую и эксплуатирую отказоустойчивые Kubernetes-платформы, автоматизирую CI/CD и внедряю GitOps-подходы. Много работаю с наблюдаемостью: строю мониторинг и хранение метрик на базе Prometheus и Thanos, настраиваю Grafana-дашборды и алерты под реальные SLO, а не чтобы было красиво. Регулярно занимаюсь инцидентами, миграциями и масштабированием без простоев. Пишу технические статьи на Habr (@leshoi), где делюсь практическим опытом и граблями на которые попадаю при деплое.
Видео
Другие доклады секции
Архитектура и масштабируемость