20 лет на граблях: ошибки, отказы и выводы

Эксплуатация систем

Отказоустойчивость

Распределенные системы

Методы и техника разработки ПО

DevOps / SRE

23 июня, 12:20, «Зал 08 / Фиолетовый шатер»

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Спикер с большим опытом работы в ИТ. В докладе 4 ситуации, с которыми он столкнулся по ходу своей карьеры. Fail-митап, превращенный в полноценный доклад с историями, которые кажутся шутками, но это реальность.

Целевая аудитория

SRE, разработчики, CTO.

Тезисы

Скачать презентацию Все презентации конференции

Разработка программного обеспечения и его эксплуатация — это не только масштабирование, автоматизация и передовые технологии, но и постоянная борьба с неожиданными отказами, ошибками и нестандартными ситуациями. В этом докладе я расскажу о самых запоминающихся «граблях», на которые довелось наступить за 20 лет в IT.

Мы разберем реальные кейсы фатальных ошибок, неочевидных проблем и нестандартных решений. От DNS-кешей, которые синхронно отваливались, до неожиданного поведения автоскейлинга в критических ситуациях. Расскажу, как безобидные архитектурные решения приводили к каскадным проблемам и почему некоторые способы резервирования делают систему более хрупкой. Поговорим о конкретных кейсах и их решениях, включая забавный случай с «пугливым багом» в видеозвонках и о серьезном инциденте с простоем корпоративной инфраструктуры.

Будет много практических примеров, живых историй и выводов, которые помогут вам избежать этих ошибок в своей работе.

Александр Стерлигов

MWS (МТС Web Services)

Прошел путь от Junior-специалиста на фрилансе до руководителя крупных сервисов (до 300 человек). В IT более 20 лет.

Работал в разработке игр и над встраиваемым ПО. В Яндекс.Поиск отвечал за создание слоя развертывания, который вырос во внутреннее облако Яндекса. Затем развивал платформу анализа данных и сервис внутренней рекламы и руководил направлением маркетинга в маркетплейсе Joom. После стал операционным руководителем инженерной платформы в Яндекс.

В настоящее время руководитель проектного офиса и сервиса compute в MWS Cloud Platform.