От даунтайма в проде из-за сетевой ошибки до коммита в апстрим Linkerd

Производительность enterprise-систем

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Этот доклад - история разработчика из компании, столкнувшейся с проблемами в эксплуатации Linkerd. Докладчик расскажет о том, как он подошёл к решению проблемы, которую в итоге взяли в апстрим проекта, а система начала работать лучше.

Целевая аудитория

Бекендеры, devops-инженеры, сетевики

Тезисы

Инциденты и даунтаймы дело обыденное, мы часто исследуем их причины и устраняем их.
Но бывают такие даунтаймы в причинах, которых разобраться сложно, а исправить кажется невозможным. Особенно если инцидент произошел один раз, кажется, что проблема миновала и изучение можно отложить в долгий ящик. Но не всегда такое оправдано
Расскажу о нашем таком случае:
Как приложение лежало и восстановилось ”само собой” через 15 минут
Как сайдэффект настройки сети для микросервисов в кубере привел нас к даунтайму
Как нашли причины в случайной статье от Cloudflare
Как мы почти забили на исправление, а по итогу довели исправление в Linkerd комьюнити

Бекенд разработчик на Go. Профессионально разрабатываю на Go 3 года. Увлекаюсь Go и пропагандирую Go-way в разработке. Имею небольшой опыт Production разработки на Rust.
Имею опыт работы с Kubernetes как разработчик приложений. Продвигаю SRE практики

Видео