Железо не подведет. Как я готовлю к бою десятки серверов в деньDevOps и эксплуатация

Доклад принят в программу конференции

Tango.me

Lead SRE

Тезисы

Serverless - это все равно сервер. Выход из строя сервера под нагрузкой причиняет боль. Избыточность оборудования в облаке решает эту проблему.

Я хочу поговорить о том, как мы уменьшаем вероятность поломки оборудования под нагрузкой. Недопустимо, чтобы "новый" сервер, взятый для задачи, работал плохо или не в полную силу. Диагностика обеспечивает, чтобы все доступные сервера являлись полностью исправными и готовыми к бою.

Как я измеряю здоровье "железяки", какие показатели правильны для CPU, памяти и устройств хранения?

За 2017 год наша система проверила порядка 5000 серверов. Очевидные пути для проверки оборудования не подошли для пакетной работы. Методы пришлось подбирать экспериментальным путем. Как понять, какие метрики являются показательными? Стоит ли измерять скорость работы RAM?

Мы добились того, что в работу отдаются только исправные машины. Научу вас это делать в автоматическом режиме.

Технологии отказоустойчивости и катастрофоустойчивости, бэкапы

Аппаратное обеспечение

Другие доклады секции DevOps и эксплуатация

Как VK вставляет данные в ClickHouse с десятков тысяч серверов

Юрий Насретдинов

ВКонтакте

Подход к Continuous Deployment в микросервисной архитектуре

Алексей Баитов

2ГИС

Мониторинг облачной инфраструктуры

Михаил Прокопчук

Avito

Тестовые стенды по запросу в условиях распиливания монолита

Дмитрий Скоков

REG.RU