Инциденты и даунтаймы — дело обыденное, мы часто исследуем их причины и устраняем их. Но бывают такие даунтаймы, в причинах которых разобраться сложно, а исправить кажется невозможным. Особенно если инцидент произошел один раз — думается, что проблема миновала и изучение можно отложить в долгий ящик. Но не всегда такое оправдано.
Расскажу о нашем таком случае:
* как приложение лежало и восстановилось «само собой» через 15 минут;
* как сайд-эффект настройки сети для микросервисов в кубере привел нас к даунтайму;
* как нашли причины в случайной статье от Cloudflare;
* как мы почти забили на исправление, а по итогу довели исправление в Linkerd-комьюнити.