Крупнейшая профессиональная конференция для разработчиков высоконагруженных систем

28 и 29 ноября 2024

Москва

Эффект бабочки в SRE

Эксплуатация систем

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

DevOps- и SRE-инженеры, бэкенд-разработчики.

Тезисы

Надежность в современном цифровом мире - это одна из ключевых характеристик любой системы. Методология SRE предполагает строгое фокусирование на надежности и поддержании заявленного SLA. Одновременно с этим, системы постоянно развиваются и совершенствуются. Но любое вносимое в систему изменение/обновление/релиз несет в себе риски и эти риски зачастую не воспринимаются таковыми. На нашем проекте Sage в Тинькофф, мы, как команда SRE, убедились на собственном опыте, что не бывает безопасных релизов и к любой модификации продакшн контура нужно относиться внимательно.
В докладе я поделюсь следующими кейсами, подтверждающими нашу позицию:

* Крупный сбой полученный при смене базового докер-образа для одного из микросервисов. Этот сбой стоил нам двух часов бюджета SLA
* Полный отказ записи данных в кластер Elasticsearch через месяц после внесения правки в конфигурацию кластера
* Драматическая деградация производительности серверов из-за обновления микрокода

Бывший разработчик со стажем в 12 лет. Делал и фронт, и бэк (Dotnet).
Прошел путь от программиста микроконтроллеров на ассемблере до SRE.
Сейчас SRE-инженер в Sage (Тинькофф).
https://www.linkedin.com/in/max-vanyushkin

Тинькофф

Команда Тинькофф — это разработчики, тестировщики, SRE-инженеры, архитекторы, аналитики, продакт-менеджеры, дизайнеры и другие специалисты. Вместе они создают финтех-продукты, которыми пользуются около 40 миллионов клиентов. Тинькофф развивает IT-индустрию, поддерживает комьюнити и делится экспертизой.

Видео