Авито: root cause detector
Доклад принят в программу конференции
Целевая аудитория
Тезисы
В нашей компании несколько дата-центров, несколько тысяч серверов и несколько тысяч микросервисов. В момент крупных аварий достаточно сложно выявить корневую причину её возникновения. Вместе с тем такие причины часто являются типичными.
Мы решили создать инструмент, который помог бы нам быстро проанализировать большую часть сценариев отказа для конкретно взятого сервиса: состояние этого сервиса, состояние инфраструктуры и т.д., — и на основе результатов анализа определить причину сбоя.
В своём докладе я расскажу о том, как мы спроектировали, разработали и запустили в эксплуатацию root cause detector. Этот доклад будет полезен для тех, кто хочет начать применять практику root cause-анализа у себя в компании с целью уменьшения времени жизни инцидентов.
Инженер в компании Авито.
Авито
Видео
Другие доклады секции
DevOps и эксплуатация