Профессиональная конференция разработчиков высоконагруженных систем

Тернистый путь к единому хранилищу метрик экосистемы

DevOps и эксплуатация

Observability в enterprise
Хранилища

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Подробный технический доклад про построение высоконагруженной системы мониторинга в огромной продуктовой экосистеме (более 300 продуктов). Мы любим хайлоад за то, что он проверяет технические решения практикой. Если вы построите мониторинг у себя так же, то как минимум он будет работать.

Целевая аудитория

Доклад будет полезен SRE-специалистам, инженерам и продуктовым командам, перед которыми стоит задача сбора метрик и мониторинга продуктов и экосистем продуктов.

Тезисы

Метрики — один из трех базовых типов телеметрии и основа мониторинга любого приложения. Но что, если необходимо собирать их в рамках крупной и высоконагруженной экосистемы? Как собрать метрики с десятков тысяч хостов разных ЦОДов и сотен типов приложений? Как упростить инженерам настройку правил алертинга и создание дашбордов?

Мы в МТС используем для этих целей агент telegraf и большой кластер Victoria Metrics, принимающий 10+ млн сэмплов в секунду. В докладе я расскажу, как мы реализовали возможность централизованного управления конфигурацией агентов, удобный интерфейс для настройки алертинга и правил сбора метрик. Рассмотрим, как менялась архитектура нашего решения с ростом нагрузки, как мы боролись с отставанием и потерей данных. Обсудим, как это позволило нам собрать все метрики в единое хранилище и построить дашборды здоровья по ключевым продуктам.

Филипп Бочаров

МТС Диджитал

Руководитель направления в МТС. Занимается развитием технологической платформы, обеспечивающей наблюдаемость процессов и систем. Внедряет и популяризирует практику наблюдаемости на IТ-ландшафте МТС. Сертифицированный владелец продукта с опытом в разработке более 10 лет.

МТС Диджитал

МТС — одна из ведущих экосистемных компаний России. Предоставляет услуги мобильной и фиксированной связи, решения в области объединенных коммуникаций, интернета вещей, обработки данных, облачных вычислений и кибербезопасности. Штат IT-специалистов компании превышает 8 000 человек.

Видео