Развитие трейсинга в hh.ru. Рост от 1 тысячи до 1 миллиона событий в секунду без семплирования

Резерв

Логирование и мониторинг
Микросервисы
DevOps / SRE

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Этот доклад будет полезен инженерам, которые находятся в процессе построения/перестроения своей собственной системы трейсинга. Рассматриваются несколько вариантов архитектуры системы, жизненные циклы и процессы поиска новой архитектуры под возросшие нагрузки.

Целевая аудитория

SRE, DevOps, платформенные инженеры, все заинтересованные.

Тезисы

В каждой компании есть необходимость выстроить систему observability. В своём докладе расскажу, как мы прошли несколько вариантов реализации пайплайна сбора и хранения трейсов. Посмотрим, почему отказались от jaeger, elastic, cassandra, opentelemetry agent/collector.

О том, как мы несколько раз перестраивали нашу архитектуру под большее количество данных. Много ли сейчас у нас данных? Имеем на входе 24к RPS, 1 миллион спанов в сек., 5к инстансов сервисов. Рассмотрим плюсы и минусы трейсинга без семплирования.

И в заключение посмотрим, как сделать свой анализатор причин даунтаймов на основе трейсинга.

Ведущий разработчик в платформенной команде Head Hunter. Занимается разработкой фреймворков компании, внедрением новых технологий, SRE. Больше 10 лет опыта в разработке.

hh.ru

hh.ru — один из самых посещаемых сайтов по поиску работы и сотрудников в мире (по данным рейтинга Similarweb, 2024 года). Команда hh.ru фактически видит рынок труда в стране и напрямую влияет на его развитие.

Видео