Как мы строили наблюдаемость на Open Source в ecom.tech: OpenTelemetry, Qryn и Coroot

Эксплуатация систем

Логирование и мониторинг
Производительность и мониторинг фронтенда
Observability в enterprise
Логи, метрики, ошибки
Оптимизация
DevOps / SRE
Инфраструктура

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Хороший доклад об инженерной истории развития трейсинга. Ребята пришли от Elastic APM через Grafana Tempo к Qryn+Clickhouse. Также расскажут про то, как дополнили это решение данными от Coroot.

Целевая аудитория

SRE и DevOps-инженеры, backend-инженеры и техлиды,

Тезисы

Доклад, который будет интересен SRE и DevOps-инженерам, бэкенд-разработчикам и техлидам. Поговорим о телеметрии: формат OpenTelemetry, Qryn и Coroot. Как внедрять, как расследовать инциденты и как сделать свою высоконагруженную систему с̶ч̶а̶с̶т̶л̶и̶в̶о̶й̶ работающей.

Обсудим и расскажем на конкретных кейсах:
* как менять инфраструктуру под действием внешних факторов, оставаясь доступными пользователю;
* как использовать опенсорс в высоконагруженных средах, выбирая лучшее для себя;
* как превращать трейсы в метрики и что это может дать;
* что нам позволяет дешево анализировать аномалии и дебажить инциденты.

PTL платформы Observability в ecom.tech. Работал с Elasticsearch/Opensearch, Zabbix, OpenTelemetry. Занимается доставкой логов и трейсов.
Тзинча слуга, раб колдовства!

Видео