20 лет на граблях: ошибки, отказы и выводы
Доклад принят в программу конференции
Целевая аудитория
Тезисы
Разработка программного обеспечения и его эксплуатация — это не только масштабирование, автоматизация и передовые технологии, но и постоянная борьба с неожиданными отказами, ошибками и нестандартными ситуациями. В этом докладе я расскажу о самых запоминающихся «граблях», на которые довелось наступить за 20 лет в IT.
Мы разберем реальные кейсы фатальных ошибок, неочевидных проблем и нестандартных решений. От DNS-кешей, которые синхронно отваливались, до неожиданного поведения автоскейлинга в критических ситуациях. Покажу, как безобидные архитектурные решения приводили к каскадным проблемам, и почему некоторые способы резервирования на самом деле делают систему более хрупкой. Поговорим о конкретных кейсах и их решениях, включая забавный случай с "пугливым багом" в видеозвонках и о серьезном инциденте с простоем корпоративной инфраструктуры.
Будет много практических примеров, живых историй и выводов, которые помогут вам избежать этих ошибок в своей работе.
Прошёл путь от Junior-специалиста на фрилансе до руководителя крупных сервисов (до 300 человек). В IT более 20 лет.
Работал в разработке игр и над встраиваемым ПО. В Яндекс.Поиск отвечал за создание слоя развёртывания, который вырос во внутреннее облако Яндекса. Затем развивал платформу анализа данных и сервис внутренней рекламы и руководил направлением маркетинга в маркетплейсе Joom. После стал операционным руководителем инженерной платформы в Яндекс.
В настоящее время руководитель проектного офиса и сервиса compute в MTS Web Services.
Видео
Другие доклады секции
Эксплуатация систем