В каждой компании есть необходимость выстроить систему observability. В своём докладе расскажу, как мы прошли несколько вариантов реализации пайплайна сбора и хранения трейсов. Посмотрим, почему отказались от jaeger, elastic, cassandra, opentelemetry agent/collector.
О том, как мы несколько раз перестраивали нашу архитектуру под большее количество данных. Много ли сейчас у нас данных? Имеем на входе 24к RPS, 1 миллион спанов в сек., 5к инстансов сервисов. Рассмотрим плюсы и минусы трейсинга без семплирования.
И в заключение посмотрим, как сделать свой анализатор причин даунтаймов на основе трейсинга.