От даунтайма в проде из-за сетевой ошибки до коммита в апстрим Linkerd

Производительность enterprise-систем

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Этот доклад — история разработчика из компании, столкнувшейся с проблемами в эксплуатации Linkerd. Докладчик расскажет о том, как он подошел к решению проблемы, которую в итоге взяли в апстрим проекта, а система начала работать лучше.

Целевая аудитория

Бэкендеры, DevOps-инженеры, сетевики.

Тезисы

Инциденты и даунтаймы — дело обыденное, мы часто исследуем их причины и устраняем их. Но бывают такие даунтаймы, в причинах которых разобраться сложно, а исправить кажется невозможным. Особенно если инцидент произошел один раз — думается, что проблема миновала и изучение можно отложить в долгий ящик. Но не всегда такое оправдано.

Расскажу о нашем таком случае:
* как приложение лежало и восстановилось «само собой» через 15 минут;
* как сайд-эффект настройки сети для микросервисов в кубере привел нас к даунтайму;
* как нашли причины в случайной статье от Cloudflare;
* как мы почти забили на исправление, а по итогу довели исправление в Linkerd-комьюнити.

Бэкенд-разработчик на Go. Профессионально разрабатывает на Go 3 года. Увлекается Go и пропагандирует Go-way в разработке. Имеет небольшой опыт production-разработки на Rust.
Имеет опыт работы с Kubernetes как разработчик приложений. Продвигает SRE-практики.

Видео