HighLoad++ 2015 завершён! Ждём вас в 2016 году!

Профессиональная конференция разработчиков высоконагруженных систем

2 и 3 ноября 2015 Крокус-Экспо МОСКВА
Профессиональная конференция разработчиков высоконагруженных систем

Статистика на практике для поиска аномалий в нагрузочном тестировании и production
Системное администрирование

Доклад принят в Программу конференции

На текущий момент работаю над сервисом для сбора и хранения логов (Log Management). Занимался распределенными высоконагруженными системами в биржевой торговле, hh.ru, проектах "Видео" и "Музыка" yandex.ru, веб-разработкой.

Тезисы

Современные системы мониторинга позволяют собирать данные о производительности и могут отправлять уведомления в случае, если значения показателей выходят за предопределенные рамки. Поломка или неожиданное изменение поведения не обязательно приводит к выходу за рамки, но человек видит это изменение на графиках. Однако человек не в состоянии постоянно просматривать тысячи графиков, поэтому речь пойдет об автоматизации этого процесса.

Для нагрузочного тестирования удалось подобрать несколько математических методов, которые помогают найти, что и когда сломалось в процессе теста.

Анализ поведения системы с живыми пользователями гораздо сложнее. Есть популярные методы, которые имеют ряд недостатков. Есть относительно новые методы, которые дают хорошие результаты, но имеют ограниченную область применения.

Для обоих случаев (тестирование и production) бывает полезно не только знать, что и когда сломалось, но и находить внутренние зависимости в системе, поэтому доклад включает рассказ о методах корреляции и кластеризации метрик.

В качестве примера реализации будет рассмотрен Kale stack (skyline, oculus) от Etsy, это OpenSource-инструмент для обнаружения и корреляции аномалий.

Rambler's Top100