Железо не подведет. Как я готовлю к бою десятки серверов в деньDevOps и эксплуатация
Serverless - это все равно сервер. Выход из строя сервера под нагрузкой причиняет боль. Избыточность оборудования в облаке решает эту проблему.
Я хочу поговорить о том, как мы уменьшаем вероятность поломки оборудования под нагрузкой. Недопустимо, чтобы "новый" сервер, взятый для задачи, работал плохо или не в полную силу. Диагностика обеспечивает, чтобы все доступные сервера являлись полностью исправными и готовыми к бою.
Как я измеряю здоровье "железяки", какие показатели правильны для CPU, памяти и устройств хранения?
За 2017 год наша система проверила порядка 5000 серверов. Очевидные пути для проверки оборудования не подошли для пакетной работы. Методы пришлось подбирать экспериментальным путем. Как понять, какие метрики являются показательными? Стоит ли измерять скорость работы RAM?
Мы добились того, что в работу отдаются только исправные машины. Научу вас это делать в автоматическом режиме.