Тернистый путь к единому хранилищу метрик экосистемы

DevOps и эксплуатация

Observability в enterprise

Хранилища

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Подробный технический доклад про построение высоконагруженной системы мониторинга в огромной продуктовой экосистеме (более 300 продуктов). Мы любим хайлоад за то, что он проверяет технические решения практикой. Если вы построите мониторинг у себя так же, то как минимум он будет работать.

Целевая аудитория

Доклад будет полезен SRE-специалистам, инженерам и продуктовым командам, перед которыми стоит задача сбора метрик и мониторинга продуктов и экосистем продуктов.

Тезисы

Скачать презентацию Все презентации конференции

Метрики — один из трех базовых типов телеметрии и основа мониторинга любого приложения. Но что, если необходимо собирать их в рамках крупной и высоконагруженной экосистемы? Как собрать метрики с десятков тысяч хостов разных ЦОДов и сотен типов приложений? Как упростить инженерам настройку правил алертинга и создание дашбордов?

Мы в МТС используем для этих целей агент telegraf и большой кластер Victoria Metrics, принимающий 10+ млн сэмплов в секунду. В докладе я расскажу, как мы реализовали возможность централизованного управления конфигурацией агентов, удобный интерфейс для настройки алертинга и правил сбора метрик. Рассмотрим, как менялась архитектура нашего решения с ростом нагрузки, как мы боролись с отставанием и потерей данных. Обсудим, как это позволило нам собрать все метрики в единое хранилище и построить дашборды здоровья по ключевым продуктам.

Филипп Бочаров

МТС Web Services (MWS)

CPO RelyOps Platform в МТС Web Services. Занимается развитием технологической платформы, обеспечивающей надежность продуктов в экосистеме МТС. Платформа предоставляет функционал CMDB, ITSM и Observability. Сертифицированный владелец продукта с опытом в разработке более 15 лет.

МТС Web Services (MWS)

МТС — мультисервисная цифровая экосистема и ведущий телеком-оператор в России. Компания развивает сервисы и продукты в сфере больших данных, искусственного интеллекта, облачного хранения, медиа и финансов, телекоммуникаций. Штат IT-специалистов превышает 9,5 тыс. человек.