Когда облако дало сбой: реальный кейс борьбы за отказоустойчивость

SRE и эксплуатация систем

Доклад принят в программу конференции

Целевая аудитория

SRE, DevOps-инженеры, разработчики

Тезисы

Любая крупная инфраструктура не застрахована от серого лебедя: критические инциденты случались и будут случаться, поэтому важно уметь вовремя понимать, не стоит ли всё на пороге кризиса, а если он случился, то как из него выходить и извлекать уроки.

В докладе расскажу, как выносить уроки и пересматривать подходы к устойчивости.

В частности вы узнаете:
— Как можно распознать приближающиеся проблемы.
— Что делать, если она уже случилась.
— Что помогало и что мешало принимать технические решения в условиях неопределенности.

Бонус-трек: как поддержать себя и команду в условиях кризиса.


Константин Крамлих

Yandex Cloud (входит в Yandex B2B Tech)

Костя в Яндексе уже почти 12 лет, половину из которых занимался разработкой браузера, а вторую половину -- сетевой виртуализацией в Yandex Cloud. Команда Кости разрабатывает сервисы, отвечающие за доставку клиентского трафика: связность между виртуальными машинами, внешняя связность, L3/L7 балансировщики, DNS, Cloud Interconnect, NAT. Это базовые продукты, которыми пользуются все клиенты облака, включая также наши PaaS/SaaS сервисы.

Видео