Многоуровневый мониторинг веб-систем класса mission critical Основная секция
Доклад принят в Программу конференции
Тезисы
Постановка задачи. Когда возникает необходимость в многоуровневом мониторинге?
- Круглосуточные продажи на глобальном рынке;
- Сложность ИТ-инфраструктуры и веб-приложения, поэтому проблемы не всегда видны «невооруженным» взглядом и не всегда сразу;
- Если предотвращение потерь покрывает затраты на мониторинг.
Опыт компании ITONLINE GROUP
- Описание системы заказчика:
- Шесть связанных веб-приложений, организованных в единую бизнес-модель;
- Несколько территориально удаленных площадок, несколько реплицируемых БД;
- 100 000 посетителей в день, 1 000 000 просмотров страниц;
- Стоимость часа простоя измеряется в тысячах долларов потерянной выручки и в десятках тысяч долларов потерянной лояльности клиентов.
- Проактивный подход к обеспечению отказоустойчивости:
- Реактивный подход: «Что будем делать, если какой-то сервер сломается?»
- Проактивный подход: «Как будет работать система, когда вот этот сервер сломается?»
- После обнаружения первого сбоя в какой-либо точке сразу должен быть настроен ее мониторинг. Повторный сбой халатность.
- Три уровня мониторинга:
- Состояние технической платформы: серверов и коммуникаций;
- Состояние приложений;
- Динамика бизнес-показателей.
- Параметры мониторинга:
- Доступность и нагрузоустойчивость;
- Профилактический, оперативный и экстренный уровень проблем.
- Отказоустойчивость мониторинга:
- Дублирование систем мониторинга и систем оповещений;
- Мониторинг мониторинга.
Инструменты мониторинга:
- Системные средства операционной системы (счетчики Performance);
- Встроенные утилиты, поставляемые вендором оборудования (например, Dell);
- Специализированный софт (например, Servers Alive);
- Специализированные SaaS-приложения, обеспечивающие дополнительные возможности (например, WebSitePulse.com несколько locations, takeover actions, публикация данных о доступности и прочие возможности);
- Встроенные в само приложение, которое мониторится (продажи можно отслеживать только так).
Человеческий фактор:
- «Волки, волки!..» оповещения должны присылаться только в случае реального сбоя;
- Ответственность: регламентированная, финансовая, персональная;
- Регламенты не должны подавлять творческий подход при решении нетривиальных проблем.
Подведение итогов. Каким должен быть мониторинг:
- Проактивным;
- Многоуровневым (бизнес-уровень для контроля фактических показателей, технический уровень для предотвращения потенциальных проблем);
- Не ориентированным на инструменты, они вторичны;
- Ориентированным на бизнес;
- Ориентированным на человека.