Архитектурный хаос под контролем
Привет, друзья!
Сегодня поговорим об эксплуатации систем:
- как настраивают наблюдаемость,
- как разбираются с инцидентами,
- как справляются с нестабильностью под нагрузкой.
Посмотрим, что об этом говорили в прошлом году, и расскажем о докладах Saint HighLoad++ 2025 на эту тему.
Но для начала — пара слов о Kubernetes.
Лечим проблемы Kubernetes на лету по мере масштабирования проекта
Производительность etcd-кластера с множеством объектов — большая проблема для тех, кто любит Kubernetes. Но менеджер продукта Cloud Containers в VK Cloud Алексей Волков предлагает проверенное решение, которое позволило им разогнать Managed Kubernetes под очень высокие нагрузки (500 000 объектов в кластере) и сохранить его.
Видео об эксплуатации систем
📌 Как в Авито анализируют миллионы трейсов и находят архитектурные ошибки
Иван Нещадин, Авито
Смотреть доклад
Что делать, если микросервисов — тысячи, а команд — десятки? Как не потеряться в их взаимодействиях и не упустить архитектурные сбои? В Авито пошли по пути системного анализа. Трейсы собираются миллионами, раскладываются по полочкам и превращаются в карту архитектурных связей. Эта карта показывает, где сервисы перегружены, где появляются узкие места, а где нарушаются принципы построения. В центре — ArchRater, инструмент для оценки архитектуры post factum. Он показывает слабые места и помогает командам исправлять их на лету. Иван подробно рассказал, как все устроено: от сбора и хранения до анализа и интеграции с процессами разработки.
📌 Как в T-Банке наблюдаемость выросла из Prometheus и пришла к VictoriaMetrics
Руслан Боярский, T-Банк
Смотреть доклад
Сначала все выглядело просто. Prometheus, графики, метрики. Потом система начала расти. Появились сбои, объем метрик увеличился, и старая архитектура не выдержала. Команда переработала пайплайн. Началась миграция — к VictoriaMetrics. Теперь система справляется с высокой нагрузкой, и умеет хранить данные до года. Руслан рассказал историю этой трансформации.
📌 Метрики в Ozon: тысяча расчетов, строгий SLA и большой стенд
Евгений Пак, Ozon
Смотреть доклад
Каждый эксперимент в Ozon — это сотни метрик. Все должно работать быстро, точно и стабильно. Поэтому появился стенд. Он начинался с команды поиска, а теперь используется по всей компании. Это не просто платформа — это часть инфраструктуры. В своем докладе Евгений показал, как развивалась архитектура, и как его команда справлялась с ростом. Здесь и баги, и инциденты, и неожиданные технические сложности. Это опыт, за которым стоят тысячи A/B-тестов и реальные потери, если что-то идет не так.
День открытых дверей HighLoad++ 2025 — уже в понедельник
🗓 26 мая, 19:00
📍 Москва, офис VK (карта)
🔴 Регистрация офлайн
🌐 Регистрация онлайн
Поговорим, что будет нового на HighLoad++ 2025. Расскажем, как строится программа и кого мы ищем в качестве спикеров. Вы узнаете, как подать доклад и пройти отбор. А еще покажем, как работает команда изнутри.
💬 Обсудим все, что волнует. Узнаем, что важно для вас. И просто познакомимся.
⏳ Прием заявок от спикеров на HighLoad++ 2025 — до 20 июля. Если у вас уже есть идея, подавайте заявку.
А мы продолжим знакомство со спикерами июньской конференции, которая состоится в Петербурге 23 и 24 июня.
Секция «Эксплуатация систем» на Saint HighLoad++ 2025
Как сделать свою высоконагруженную систему с̶ч̶а̶с̶т̶л̶и̶в̶о̶й̶ работающей? Как ускорить процесс анализа критичных инцидентов за счет автоматизации рутинных действий? Ответы на эти вопросы вы найдете в докладах из секции «Эксплуатация систем».
Хороший доклад об инженерной истории развития трейсинга. Команда Валерия Евдокимова прошла путь от Elastic APM через Grafana Tempo к Qryn+ClickHouse. Мы услышим историю этого проекта и узнаем, как ребята дополнили решение данными от Coroot.
У всех случаются инциденты. Но правильной реакции на них не все учатся. В докладе будет освещен опыт компании МТС. Андрей Давыдков расскажет, как они научились проводить postmortem-анализы, автоматизировали этот процесс и непрерывно его развивают.
Доклад Ильи Шишкова о том, что траблшутинг высоконагруженных систем заставляет залезать в такие дебри, про которые редко задумываешься, когда читаешь гайды по настройке в интернете.
И напоследок: билеты на Saint HighLoad++ 2025 скоро подорожают
С 1 июня цены вырастут. Можно зафиксировать цену сейчас и оплатить позже.
Не упустите шанс задать вопросы тем, кто каждый день работает с высоконагруженными системами. Обсудите свои задачи — возможно, решение уже рядом.