Инцидент-менеджмент: как перестать бояться критов в продакшне Коммуникация и процессы
Руководитель группы разработки интерфейсов в Яндекс.Директе. Путем проб и ошибок пришел к тому, что душа лежит к продуктовой разработке. До работы в Яндексе не задумывался о полезности рекламы.
Тезисы
Ничто так не бодрит томными вечерами, как обнаружение крита в продакшне. В современном мире инциденты в IT-системах могут приводить к тяжелым последствиям, включая финансовые и репутационные потери. Доклад фокусируется на методах обнаружения, реагирования и предотвращения инцидентов, чтобы обеспечить стабильность и надежность сервисов.
В докладе мы ответим на ряд вопросов:
* как быстро находить неполадки, выявлять причины их возникновения и устранять их?
* какие технические и процессные решения позволят уменьшить количество инцидентов?
* нужно ли искать виноватых или можно найти другой путь решения проблем?
* можно ли прийти к надёжности постепенно?
* какие шаги в культуре и процессах можно предпринять для развития зрелого и надежного сервиса?
А также рассмотрим несколько примеров, в которых мы успешно (и не очень) применяли эти практики.
