AutoLSR - автоматизированный сбор сведений при значительных инцидентах DevOps и эксплуатация
Доклад принят в программу конференции
Тезисы
Иногда возникают ситуации, при которых всё ломается, все графики красные, и всё в огне. Вроде бы при детальном разборе всё становится понятно… но нет. Корневую причину проблемы отловить нелегко, особенно когда ты не обладаешь полной картиной происходящего в монолите, сервисах, микросервисах, базах, в сетях, в головах разработчиков и т.п.
Я расскажу, как мы собрали все тайные знания, сценарии отказов различных систем и сервисов и перенесли все это в код с целью автоматизированного обнаружения и первичного анализа значительных инцидентов.
Другие доклады секции DevOps и эксплуатация
Оператор в Kubernetes для управления кластерами БД - архитектура и функционирование. На примере clickhouse-operator
Владислав Клименко
Altinity
Нормально делай - нормально будет. Готовим рабочие нагрузки в AWS так, чтобы не было стыдно людям в глаза смотреть
Карен Товмасян
EPAM
Наблюдательный пост пессимиста: технические и концептуальные решения в системе мониторинга Lamoda
Александр Афенов
Авито
“Восстание машин” – это ок
Леонид Талалаев
Одноклассники