Как дефолты CNI могут привести к даунтайму приложения и как этого избежать

Производительность enterprise-систем

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Этот доклад - история разработчика из компании, столкнувшейся с проблемами в эксплуатации Linkerd. Докладчик расскажет о том, как он подошёл к решению проблемы, которую в итоге взяли в апстрим проекта, а система начала работать лучше.

Целевая аудитория

Бекендеры, devops-инженеры, сетевики

Тезисы

Разногласие в дефолтных настройках TCP и CNI может приводить к различным сайд-эффектам в трафике системы и приводить к ошибкам в приложении в kubernetes-кластере. Но есть случае, когда сайд-эффект встречается редко и приводит к даунтайму приложения.
Расскажу про инцидент с зависанием на 15 минут в нашей системе. Какие особенности работы TCP, gRPC Keepalive мы подчернули для проверки статуса соедиения. В чем именно нам не помог ServiceMesh, на который мы рассчитывали.
И какую еще настройку стоит подкрутить у вас в микросервисах или все же использовать ServiceMesh

Бекенд разработчик на Go. Профессионально разрабатываю на Go 3 года. Увлекаюсь Go и пропагандирую Go-way в разработке. Имею небольшой опыт Production разработки на Rust.
Имею опыт работы с Kubernetes как разработчик приложений. Продвигаю SRE практики

Видео