Конференция завершена. Ждем вас на HighLoad++ в следующий раз!
Park Inn Пулковская, пл. Победы, 1,
Санкт-Петербург, 8 и 9 апреля 2019

Мониторинг сложных систем в 2019 году. Что изменилось и как не пропустить проблему?DevOps и эксплуатация

Доклад принят в программу конференции
Евгений Потапов
ITSumma

Генеральный директор компании ITSumma, 10 лет обеспечивающей круглосуточную техническую поддержку веб-сайтов. В настоящий момент на поддержке более 10000 серверов, сайты на которых посещает более 100 миллионов человек каждый день.

telegram: @eapotapov
Тезисы

Инфраструктура любого сложного проекта сегодня представляет собой подобие многоэтажного жилого здания. Кто-то следит за состоянием здоровья жильцов в квартире, кто-то - за коммуникациями в самих квартирах, кто-то - за состоянием самого здания и коммуникаций в нем.

За последние 10 лет "многослойность" систем очень усложнилась. Приложение, которое развернуто в Kubernetes, который развернут в Openstack, который в свою очередь уже развернут на настоящем "железе" - звучит не как безумный зоопарк, а вполне "живой" (и практически применяющийся) кейс. Сервисы приложения при этом могут коммуницировать между собой через шину на Kafka.

Как отследить, где произошла проблема в случае аварии в системе? Может быть, это связано с нагрузкой на базу создаваемой самим приложением? Может быть, что-то происходит с брокером сообщений, и сервисы перестали коммуницировать между собой? А почему начались проблемы с брокером - может быть, это проблемы в низлежащей архитектуре?

В докладе я рассмотрю современный стек мониторинга, логирования и трейсинга сложных приложений, ключевые точки их мониторинга и способы объединить информацию из разрозненных систем для того, чтобы в максимально короткое время иметь представление о том, что же происходит на примере мониторинга "живого" проекта.

Структура доклада:
1. Архитектура современного сложного проекта.
2. Мониторинг инфраструктуры и его специфика.
3. Мониторинг уровня виртуализации и его специфика.
4. Мониторинг уровня контейнеризации и PaaS и его специфика.
5. Мониторинг уровня приложений.
6. Трейсинг приложений.
7. Организация системы оповещения и расследования инцидентов.

Логирование и мониторинг
,
Технологии отказоустойчивости и катастрофоустойчивости, бэкапы
,
Devops / другое

Другие доклады секции DevOps и эксплуатация

Rambler's Top100