Когда облако дало сбой: реальный кейс борьбы за отказоустойчивость

SRE и эксплуатация систем

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Эффект домино, переходящий в аварию со значительным аффектом, бессонные ночи, восстановление, постмортемы и планы по недопущению. Живая история и рабочие практические рекомендации, как спать спокойно по ночам, от одного из ключевых игроков облачного рынка.

Целевая аудитория

SRE, DevOps-инженеры, разработчики.

Тезисы

Скачать презентацию Все презентации конференции

Любая крупная инфраструктура не застрахована от серого лебедя: критические инциденты случались и будут случаться, поэтому важно уметь вовремя понимать, не стоит ли всё на пороге кризиса, а если он случился, то как из него выходить и извлекать уроки.

В докладе расскажу, как выносить уроки и пересматривать подходы к устойчивости.

В частности вы узнаете:
* Как можно распознать приближающиеся проблемы.
* Что делать, если она уже случилась.
* Что помогало и что мешало принимать технические решения в условиях неопределенности.

Бонус-трек: как поддержать себя и команду в условиях кризиса.

Константин Крамлих

Yandex Cloud

Костя в Яндексе уже почти 12 лет, половину из которых занимался разработкой браузера, а вторую половину — сетевой виртуализацией в Yandex Cloud. Команда Кости разрабатывает сервисы, отвечающие за доставку клиентского трафика: связность между виртуальными машинами, внешняя связность, L3/L7-балансировщики, DNS, Cloud Interconnect, NAT. Это базовые продукты, которыми пользуются все клиенты облака, включая также PaaS/SaaS-сервисы компании.