Эволюция пайплайна метрик. Как менялась архитектура с ростом нагрузки Архитектура
Опыт в IT около 20 лет. Последние несколько лет является SRE-инженером в Т-Банке в команде Sage.
За свою карьеру успешно выполнял различные роли, в том числе разработчика, архитектора и управленца. Как правило, всегда работает над задачами с высокой неопределенностью.
https://www.linkedin.com/in/ruslan-boyarskiy/
Тезисы
Очевидно, что в современном мире разработки ПО без метрик будет непросто. Метрики помогают нам понять, как живут наши сервисы. А для того, чтобы собирать, хранить и анализировать метрики, нужен инструмент. В Т-Банке такой инструмент — это observability-платформа Sage, в которую собирается телеметрия всех сервисов банка.
Подсистема метрик Sage за 4 года прошла несколько витков эволюции.
В своем докладе я расскажу:
* как мы прошли путь от Prometheus до кластерной Victoria Metrics cо сроком хранения метрик до 1 года;
* как несколько сбоев вскрыли наши проблемы и стали триггером к следующем витку эволюции наших подходов;
* как мы адаптировали пайплайн записи и поиска метрик при постоянном росте количества записываемых временных рядов;
* какие знания мы получили о кластерной Victoria Metrics и на какие ее метрики мы обращаем внимание в первую очередь.
Доклад будет интересен как экспертам, так и людям, которые только погружаются в тему метрик.
