Инциденты и даунтаймы дело обыденное, мы часто исследуем их причины и устраняем их.
Но бывают такие даунтаймы в причинах, которых разобраться сложно, а исправить кажется невозможным. Особенно если инцидент произошел один раз, кажется, что проблема миновала и изучение можно отложить в долгий ящик. Но не всегда такое оправдано
Расскажу о нашем таком случае:
Как приложение лежало и восстановилось ”само собой” через 15 минут
Как сайдэффект настройки сети для микросервисов в кубере привел нас к даунтайму
Как нашли причины в случайной статье от Cloudflare
Как мы почти забили на исправление, а по итогу довели исправление в Linkerd комьюнити