Конференция разработчиков
высоконагруженных систем
Хочу быть в курсе событий!
Статистика на практике для поиска аномалий в нагрузочном тестировании и production
Современные системы мониторинга позволяют собирать данные о производительности и могут отправлять уведомления в случае, если значения показателей выходят за предопределенные рамки. Поломка или неожиданное изменение поведения не обязательно приводит к выходу за рамки, но человек видит это изменение на графиках. Однако человек не в состоянии постоянно просматривать тысячи графиков, поэтому речь пойдет об автоматизации этого процесса.
Для нагрузочного тестирования удалось подобрать несколько математических методов, которые помогают найти, что и когда сломалось в процессе теста.
Анализ поведения системы с живыми пользователями гораздо сложнее. Есть популярные методы, которые имеют ряд недостатков. Есть относительно новые методы, которые дают хорошие результаты, но имеют ограниченную область применения.
Для обоих случаев (тестирование и production) бывает полезно не только знать, что и когда сломалось, но и находить внутренние зависимости в системе, поэтому доклад включает рассказ о методах корреляции и кластеризации метрик.
В качестве примера реализации будет рассмотрен Kale stack (skyline, oculus) от Etsy, это OpenSource-инструмент для обнаружения и корреляции аномалий.