Главная
→
2024
→
DevOps и эксплуатация

Тернистый путь к единому хранилищу метрик экосистемы
DevOps и эксплуатация

Доклад принят в Программу конференции

MWS (МТС Web Services)

Руководитель направления в МТС. Занимается развитием технологической платформы, обеспечивающей наблюдаемость процессов и систем. Внедряет и популяризирует практику наблюдаемости на IТ-ландшафте МТС. Сертифицированный владелец продукта с опытом в разработке более 10 лет.

Тезисы

00 Зал Башня

24 июня, 10:00

Метрики — один из трех базовых типов телеметрии и основа мониторинга любого приложения. Но что, если необходимо собирать их в рамках крупной и высоконагруженной экосистемы? Как собрать метрики с десятков тысяч хостов разных ЦОДов и сотен типов приложений? Как упростить инженерам настройку правил алертинга и создание дашбордов?

Мы в МТС используем для этих целей агент telegraf и большой кластер Victoria Metrics, принимающий 10+ млн сэмплов в секунду. В докладе я расскажу, как мы реализовали возможность централизованного управления конфигурацией агентов, удобный интерфейс для настройки алертинга и правил сбора метрик. Рассмотрим, как менялась архитектура нашего решения с ростом нагрузки, как мы боролись с отставанием и потерей данных. Обсудим, как это позволило нам собрать все метрики в единое хранилище и построить дашборды здоровья по ключевым продуктам.

Observability в enterprise

Хранилища