Как мы строили систему телеметрии на opensource в ecom.tech: OpenTelemetry, Qryn и Coroot
Доклад принят в программу конференции
Целевая аудитория
Тезисы
Мониторинг и телеметрия — неотъемлемая часть работы с высоконагруженными сервисами. Но что делать, когда готовые решения не подходят, а нагрузка растет? В этом докладе я расскажу, как мы выстраивали систему наблюдаемости в крупном e-commerce, используя OpenTelemetry и опенсорс-решения Qryn и Coroot.
Разберем наш путь:
• Почему отказались от Elastic APM и почему Grafana Tempo не справился с нагрузкой.
• Как MinIO не выдержал объема данных, переход на S3 привел к потере трейсов, а Qryn с ClickHouse помог решить проблему хранения.
• Как мы научились превращать трейсы в метрики с помощью VictoriaMetrics, построили дашборды в Grafana и вывели мониторинг на новый уровень.
• Как Coroot помог нам анализировать аномалии и быстрее разбираться с инцидентами.
Надеюсь, доклад будет интересен SRE и DevOps-инженерам, backend-разработчикам и техлидам.
PTL платформы Observability в ecom.tech. Работал с Elasticsearch/Opensearch, Zabbix, OpenTelemetry. Занимаюсь доставкой логов и трейсов.
Я Тзинча слуга, я раб колдовства!
Видео
Другие доклады секции
Эксплуатация систем