Когда облако дало сбой: реальный кейс борьбы за отказоустойчивость
Доклад принят в программу конференции
Целевая аудитория
Тезисы
Любая крупная инфраструктура не застрахована от серого лебедя: критические инциденты случались и будут случаться, поэтому важно уметь вовремя понимать, не стоит ли всё на пороге кризиса, а если он случился, то как из него выходить и извлекать уроки.
В докладе расскажу, как выносить уроки и пересматривать подходы к устойчивости.
В частности вы узнаете:
— Как можно распознать приближающиеся проблемы.
— Что делать, если она уже случилась.
— Что помогало и что мешало принимать технические решения в условиях неопределенности.
Бонус-трек: как поддержать себя и команду в условиях кризиса.
Костя в Яндексе уже почти 12 лет, половину из которых занимался разработкой браузера, а вторую половину -- сетевой виртуализацией в Yandex Cloud. Команда Кости разрабатывает сервисы, отвечающие за доставку клиентского трафика: связность между виртуальными машинами, внешняя связность, L3/L7 балансировщики, DNS, Cloud Interconnect, NAT. Это базовые продукты, которыми пользуются все клиенты облака, включая также наши PaaS/SaaS сервисы.
Видео
Другие доклады секции
SRE и эксплуатация систем