Конференция завершена. Ждем вас на HighLoad++ в следующий раз!

Мониторинг сложных систем в 2019 году. Что изменилось и как не пропустить проблему? DevOps и эксплуатация

Доклад принят в программу конференции
Евгений Потапов
ITSumma

Генеральный директор компании ITSumma, 10 лет обеспечивающей круглосуточную техническую поддержку веб-сайтов. В настоящий момент на поддержке более 10000 серверов, сайты на которых посещает более 100 миллионов человек каждый день.

telegram: @eapotapov
Сергей Спорышев
ITSumma

Директор направления DevOps-продуктов.
В профессиональной web-разработке более десяти лет.
Участвовал и руководил разработкой многих highload-проектов, наиболее известные из них — CarambaTV, Nashestvie.Ru, BeSeed, Овкусе, Project1917.

Тезисы

Инфраструктура любого сложного проекта сегодня представляет собой подобие многоэтажного жилого здания. Кто-то следит за состоянием здоровья жильцов в квартире, кто-то — за коммуникациями в самих квартирах, кто-то — за состоянием всего здания и коммуникаций в нем.

За последние 10 лет "многослойность" систем существенно выросла. Приложение, которое развернуто в Kubernetes, который развернут в Openstack, который, в свою очередь, уже развернут на настоящем "железе" — звучит не как безумный зоопарк, а вполне "живой" (и практически применяющийся) кейс. Сервисы приложения при этом могут коммуницировать между собой через шину на Kafka.

Как отследить, где произошла проблема в случае аварии в системе? Может быть, это связано с нагрузкой на базу, создаваемой самим приложением? Может быть, что-то происходит с брокером сообщений и сервисы перестали коммуницировать между собой? А почему начались проблемы с брокером — может быть, это проблемы в нижележащей архитектуре?

В докладе мы рассмотрим современный стек приложений для мониторинга, логирования и трейсинга сложных приложений, проведем анализ готовых решений "под ключ" и самостоятельных доработок для различных систем мониторинга, укажем ключевые точки мониторинга приложений и способы объединить информацию из разрозненных систем для того, чтобы в максимально короткое время иметь представление о том, что происходит с проектом в "real-time".

Другие доклады секции DevOps и эксплуатация

Rambler's Top100