Большой Мониторинг: когда Prometheus больше не один

Архитектура и масштабируемость

Архитектурные паттерны

Логирование и мониторинг

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

DevOps / SRE, Платформенные инженеры, Инженеры эксплуатации высоконагруженных систем, Техлиды, Архитекторы

Тезисы

Доклад основан на реальном production-опыте эксплуатации мониторинга объёмом ~2 ТБ метрик. Даётся честный разбор архитектурных решений, включая неудачные. Минимум теории, максимум практики, граблей и выводов

Ионов Константин

ГНИВЦ

SRE / DevOps-инженер с более чем 4 годами опыта. Проектирую и эксплуатирую отказоустойчивые Kubernetes-платформы, автоматизирую CI/CD и внедряю GitOps-подходы. Много работаю с наблюдаемостью: строю мониторинг и хранение метрик на базе Prometheus и Thanos, настраиваю Grafana-дашборды и алерты под реальные SLO, а не чтобы было красиво. Регулярно занимаюсь инцидентами, миграциями и масштабированием без простоев. Пишу технические статьи на Habr (@leshoi), где делюсь практическим опытом и граблями на которые попадаю при деплое.

Видео

Другие доклады секции

Архитектура и масштабируемость

Я слышал, ты любишь оркестраторы. Поэтому мы построили оркестратор для оркестратора - чтобы управлять тысячами кластеров, пока они управляют твоими подами

Артем Гринберг

Timeweb Cloud

Итак, вы решили сделать аудит: практическое руководство по разбору боевой высоконагруженной системы

Павел Лукьянов

Независимый эксперт

Онлайн светофоры в Яндекс Картах

Игорь Ретинский

Яндекс Карты

HotCache на Tarantool: real-time пайплайн от Kafka до in-memory хранения с управляемым охлаждением данных

Михаил Давидович

Альфа-банк

Workflow как код: новая эра оркестрации с Temporal.io (Workshop)

Семён Бабушкин

Umnico (группа компаний T2)

Умная VS глупая нагрузка. Нюансы порождения первой и уничтожения второй.

Михаил Колосов

Газпромбанк.Тех

Архитектурный дискуссионный клуб

Наталья Макарова

CDEK

MCP в enterprise: контроль, политики и масштабирование без хаоса

Михаил Давидович

Альфа-банк

Отказоустойчивый антифрод с гибкими настройками под нагрузкой до 1000 tps

Денис Зайчук

Единый ЦУПИС

Инфраструктура как экономика: выживание SaaS-стартапа без big-tech бюджета, но с нагрузкой как у банка

Андрей Ивахненко

Антиплагиат

Антикейсы в масштабировании инфраструктуры

Максим Яковлев

Timeweb Cloud

Адаптивная гео-балансировка на сетевом уровне с учетом метрик вычислительных сред (не DNS)

Павел Михайлик

Инфосистемы Джет

Kubernetes: координация операторов для предоставления PaaS

Александр Князев

РСХБ.цифра

BaobabRT: Как Яндекс Маркет навел порядок и ускорил доставку пользовательских сигналов

Олег Титов

Яндекс Маркет

Алгоритмы без цели: устойчивость и эмерджентное поведение в AI и распределённых системах

Михаил Давидович

Альфа-банк

Достигаем консистентности в распределенных системах

Максим Рауба

Ozon

Обеспечение согласованности данных в распределённых системах: сравнение подходов Сага и Two-phase commit

Борисова Дарья Игоревна

ПСБ

Секунда решает все

Юлия Лебедева

Сбер

Адаптивная гео-балансировка на сетевом уровне с учетом метрик вычислительных сред (не DNS)

Павел Михайлик

Инфосистемы Джет

Миллиарды транзакций в сутки: Как мы построили высоконагруженный Accounting Engine для экосистемы Сбера

Жегулин Денис Сергеевич

Сбер

Мультимодальный RAG для чертежей и ГОСТов: как подружить NebulaGraph, Qdrant и Nemotron-Mamba в закрытом контуре

Андрей Носов

Raft

Как мы построили большой ML-кластер на Kubernetes

Юмашев Иван

Ozon tech

Как мы делали крупнейший инфраструктурный проект в истории компании

Юрий Власов

CDEK

Отказоустойчивость как инструмент для оптимизации инфраструктурных расходов

Сергей Лавров

Авиасейлс

Ключ к масштабу: партиции, хеши и маршрутизация

Яговцев Сергей Евгеньевич

kaspersky

AI Flow вместо хаоса: практическая методология построения мультиагентных систем

Дмитриев Игорь Николаевич

Wildberiies & Russ

Вынос функционала из монолита

Алексей Лосев

Wildberries & Russ

Architecture as Code: от антипаттернов описания к рабочему инструменту

Иван Садовой

Туту

Pragmatic Event Driven Architecture

Иван Базалий

ati.su

SELECT * FROM hell: Как aнализ Python кода спас нашу валидацию 100 000 сетевых устройств

Даниил Парамонов

Hadal Project

Как отселить рекламу на свои легкие индексы и развязать поиску руки

Эмиль Рахимов

2ГИС

Fast & Furious Media Processing: как мы приручили стейт машину

Илья Григорьев

Яндекс 360

Расширяя возможности Kubernetes: от оркестратора к платформе

Артемий Афанасьев

Flant

Realtime-балансировка low-latency сервисов

Константин Хмелевский

Яндекс

Как сделать правильную реализацию Delayed events

Александр Митин

ИТ-Холдинг Т1

80 кластеров и один новый каждую неделю. Как мы спасали Яндекс Трекер от роста.

Дима Куприк

Яндекс

Эволюция товароцентричности в Яндекс.Еде

Михаил Ковалев

Яндекс

Надежная и быстрая архитектура поиска лекарств в Яндекс Еде

Сергей Синягин

Яндекс Еда

Архитектура, которая выдерживает 35 000 магазинов в real-time. И работает...

Алексей Соболеков

Magnit Tech

История развития телеметрии в Контуре с 2013 по 2026 с миграцией на OTel

Денисов Александр Александрович

СКБ Контур