Взгляд изнутри на надежность сервисов Facebook Системное администрирование
Production Engineer, Facebook.
Закончила ВМК МГУ. Работала в Samsung и Лаборатории Касперского. Последние 4 года работает в Facebook в команде Web Foundation, которая занимается контролем надежности и производительности facebook.com, а также разработкой автоматизации для этих задач.
Моя команда отвечает за то, чтобы facebook.com работал. Звучит очень размыто, но это наиболее точная формулировка. Нас немного. Такого же размера команды разрабатывают обычные сервисы в Facebook. Когда Facebook горит, то мы его тушим, а горит он не часто. Большую часть времени мы пишем мониторинг и автоматизацию для того, чтобы облегчить жизнь себе и другим.
Мы называемся Production Engineers. Это похоже на то, что делают SRE в Google.
В моем докладе я расскажу:
- чем именно занимаются Production Engineers в Facebook;
- как мы следим за надежностью и производительностью всего бэкенда;
- какие инструменты мы для этого используем;
- как выглядит наш мониторинг и автоматизация;
- какие крупные сбои у нас были, и как мы, в принципе, справляемся с подобными инцидентами.