От даунтайма в проде из-за сетевой ошибки до коммита в апстрим Linkerd

Производительность enterprise-систем

24 июня, 17:00, «Зал 07 / Голубой шатер»

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Этот доклад — история разработчика из компании, столкнувшейся с проблемами в эксплуатации Linkerd. Докладчик расскажет о том, как он подошел к решению проблемы, которую в итоге взяли в апстрим проекта, а система начала работать лучше.

Целевая аудитория

Бэкендеры, DevOps-инженеры, сетевики.

Тезисы

Скачать презентацию Все презентации конференции

Инциденты и даунтаймы — дело обыденное, мы часто исследуем их причины и устраняем их. Но бывают такие даунтаймы, в причинах которых разобраться сложно, а исправить кажется невозможным. Особенно если инцидент произошел один раз — думается, что проблема миновала и изучение можно отложить в долгий ящик. Но не всегда такое оправдано.

Расскажу о нашем таком случае: * как приложение лежало и восстановилось «само собой» через 15 минут; * как сайд-эффект настройки сети для микросервисов в кубере привел нас к даунтайму; * как нашли причины в случайной статье от Cloudflare; * как мы почти забили на исправление, а по итогу довели исправление в Linkerd-комьюнити.

Вадим Макеров

iSpring

Бэкенд-разработчик на Go. Профессионально разрабатывает на Go 3 года. Увлекается Go и пропагандирует Go-way в разработке. Имеет небольшой опыт production-разработки на Rust.
Имеет опыт работы с Kubernetes как разработчик приложений. Продвигает SRE-практики.