Мониторинг сложных систем в 2019 году. Что изменилось и как не пропустить проблему?DevOps и эксплуатация
Генеральный директор компании ITSumma, 10 лет обеспечивающей круглосуточную техническую поддержку веб-сайтов. В настоящий момент на поддержке более 10000 серверов, сайты на которых посещает более 100 миллионов человек каждый день.
Инфраструктура любого сложного проекта сегодня представляет собой подобие многоэтажного жилого здания. Кто-то следит за состоянием здоровья жильцов в квартире, кто-то - за коммуникациями в самих квартирах, кто-то - за состоянием самого здания и коммуникаций в нем.
За последние 10 лет "многослойность" систем очень усложнилась. Приложение, которое развернуто в Kubernetes, который развернут в Openstack, который в свою очередь уже развернут на настоящем "железе" - звучит не как безумный зоопарк, а вполне "живой" (и практически применяющийся) кейс. Сервисы приложения при этом могут коммуницировать между собой через шину на Kafka.
Как отследить, где произошла проблема в случае аварии в системе? Может быть, это связано с нагрузкой на базу создаваемой самим приложением? Может быть, что-то происходит с брокером сообщений, и сервисы перестали коммуницировать между собой? А почему начались проблемы с брокером - может быть, это проблемы в низлежащей архитектуре?
В докладе я рассмотрю современный стек мониторинга, логирования и трейсинга сложных приложений, ключевые точки их мониторинга и способы объединить информацию из разрозненных систем для того, чтобы в максимально короткое время иметь представление о том, что же происходит на примере мониторинга "живого" проекта.
Структура доклада:
1. Архитектура современного сложного проекта.
2. Мониторинг инфраструктуры и его специфика.
3. Мониторинг уровня виртуализации и его специфика.
4. Мониторинг уровня контейнеризации и PaaS и его специфика.
5. Мониторинг уровня приложений.
6. Трейсинг приложений.
7. Организация системы оповещения и расследования инцидентов.