Root cause analysis monitoring

DevOps и эксплуатация

DevOps и эксплуатация

Java
Python
PostgreSQL
Технологии отказоустойчивости и катастрофоустойчивости, бэкапы
GO
Observability в enterprise
Надёжность продакшена
Логи, метрики, ошибки
Хранилища

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Как уменьшить шум в алертах и увеличить их полезность? Можно договориться, какие алерты оставить, а какие отключить как шум, а можно построить дерево алертов и рассылать только ключевые, а остальные оставлять как дополнительные индикаторы. В докладе рассказывается о применении такого подхода.

Целевая аудитория

Девопсы и разработчики.

Тезисы

Базы данных, очереди, приложения на Spring и много чего еще, и все это в тысячах экземпляров — чем сложнее инфраструктура, тем выше вероятность возникновения ошибок. Своевременно исправлять ошибки (а ещё лучше — предсказывать их возникновение и своевременно реагировать) — одна из главных задач провайдера облачных сервисов или владельца собственной крупной инфраструктуры.

Поделимся тем, как мы используем графы в задачах мониторинга и observability и как Root Cause Analysis в мониторинге помогает командам эксплуатации.

Как и многие другие вендоры ПО, 1С давно предлагает свои продукты в облачном варианте. Это, в первую очередь, наши облачные сервисы 1С:ГРМ (Готовое Рабочее Место) и 1cFresh. Предоставление облачных сервисов требует наличия соответствующей инфраструктуры — прежде всего серверов, на которых размещаются виртуальные машины с приложениями, и софта, управляющего физическими и виртуальными машинами.

Руководитель группы разработки облачных технологий и сервисов.

Фирма 1С — ведущий разработчик решений для автоматизации и цифровизации бизнеса. 10 тыс. партнеров в 30 странах, 1.5 млн клиентов. Платформа 1С:Предприятие сочетает в себе концепцию low-code, широкий спектр инструментов и технологий, обеспечивая разработку прикладных бизнес-решений различного масштаба.

Видео