20 лет на граблях: ошибки, отказы и выводы

Эксплуатация систем

Отказоустойчивость
Распределенные системы
Методы и техника разработки ПО
DevOps / SRE

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Спикер с большим опытом работы в ИТ. В докладе 4 ситуации, с которыми он столкнулся по ходу своей карьеры. Fail-митап, превращенный в полноценный доклад с историями, которые кажутся шутками, но это реальность.

Целевая аудитория

SRE, разработчики, CTO.

Тезисы

Разработка программного обеспечения и его эксплуатация — это не только масштабирование, автоматизация и передовые технологии, но и постоянная борьба с неожиданными отказами, ошибками и нестандартными ситуациями. В этом докладе я расскажу о самых запоминающихся «граблях», на которые довелось наступить за 20 лет в IT.

Мы разберем реальные кейсы фатальных ошибок, неочевидных проблем и нестандартных решений. От DNS-кешей, которые синхронно отваливались, до неожиданного поведения автоскейлинга в критических ситуациях. Расскажу, как безобидные архитектурные решения приводили к каскадным проблемам и почему некоторые способы резервирования делают систему более хрупкой. Поговорим о конкретных кейсах и их решениях, включая забавный случай с «пугливым багом» в видеозвонках и о серьезном инциденте с простоем корпоративной инфраструктуры.

Будет много практических примеров, живых историй и выводов, которые помогут вам избежать этих ошибок в своей работе.

Прошел путь от Junior-специалиста на фрилансе до руководителя крупных сервисов (до 300 человек). В IT более 20 лет.

Работал в разработке игр и над встраиваемым ПО. В Яндекс.Поиск отвечал за создание слоя развертывания, который вырос во внутреннее облако Яндекса. Затем развивал платформу анализа данных и сервис внутренней рекламы и руководил направлением маркетинга в маркетплейсе Joom. После стал операционным руководителем инженерной платформы в Яндекс.

В настоящее время руководитель проектного офиса и сервиса compute в МТС Web Services.

Видео