Как тушат Facebook и как правильно готовить бэкапы в 2019 году
Системное администрирование на HighLoad++
Если вам интересно, как устроено системное администрирование крупных сервисов, запишите в свой план эти три доклада.
Вместе с Элиной Лобановой заглянем в Facebook и узнаем, как её небольшой команде удаётся поддерживать отказоустойчивость такой огромной системы. Когда всё спокойно, Production Engineers пишут мониторинг и автоматизацию, а когда Facebook горит, эти герои его тушат. Из доклада Элины мы узнаем, какими инструментами пользуется её команда, какие крупные сбои у них были и как они с ними справлялись.
Антон Турецкий из Badoo поможет разобраться с резервным копированием в современной инфраструктуре. Наличие бэкапов, которые можно восстановить — это признак зрелости компании и её опыта в эксплуатации. Но проблема в том, что привычный нам подход к созданию бэкапов слишком консервативен. Антон расскажет, как подружить современные тренды проектирования с резервным копированием, чтобы точно знать — нужные данные можно будет достать даже в самом критическом случае.
У «Одноклассников» было 4 дата-центра, 500 машин, 200Тб+ данных, до 2 млн строк в секунду в пике и требования 100% аптайма сервиса во что бы то ни стало. Пётр Зайцев расскажет, как имея всё это, выстроить кластер Elasticsearch для хранения логов в особо крупном объёме. Задача была нетривиальная, с большим содержанием подводных камней. А что получилось в итоге, узнаем на HighLoad++ 2019.
Zabbix с поддержкой TimescaleDB
Мониторинг — наше всё, и мы не устанем это повторять на HighLoad++. А для реализации хорошей системы мониторинга надо решить ряд классических проблем работы с данными. В нашей новой статье на Хабре посмотрим, чем может помочь TimescaleDB и какую производительность дать по сравнению с PostgreSQL.
Расскажет об этом Андрей Гущин — инженер технической поддержки Zabbix SIA. В поддержке Zabbix Андрей больше 6 лет и напрямую сталкивается с производительностью.