Конференция завершена. Ждем вас на HighLoad++ в следующий раз!

Авито: root cause detector

DevOps и эксплуатация

Работа с инцидентами

Доклад принят в программу конференции

Целевая аудитория

Владельцы продуктовых и инфраструктурных сервисов.

Тезисы

В нашей компании несколько дата-центров, несколько тысяч серверов и несколько тысяч микросервисов. В момент крупных аварий достаточно сложно выявить корневую причину её возникновения. Вместе с тем такие причины часто являются типичными.

Мы решили создать инструмент, который помог бы нам быстро проанализировать большую часть сценариев отказа для конкретно взятого сервиса: состояние этого сервиса, состояние инфраструктуры и т.д., — и на основе результатов анализа определить причину сбоя.

В своём докладе я расскажу о том, как мы спроектировали, разработали и запустили в эксплуатацию root cause detector. Этот доклад будет полезен для тех, кто хочет начать применять практику root cause-анализа у себя в компании с целью уменьшения времени жизни инцидентов.

Инженер в компании Авито.

Авито

-

Видео

Другие доклады секции

DevOps и эксплуатация