Observability сервис из инструмента для тестировщиков: мониторинг видео платформы со стороны пользователя RUTUBE

SRE и эксплуатация систем

DevOps и системное администрирование
Отказоустойчивость
Логирование и мониторинг
Автоматизация тестирования
Тестирование фронтенда
Логи, метрики, ошибки
Автотесты
DevOps / SRE
Инфраструктура

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

SRE, Мониторинг, QA, Pyhton разработчики

Тезисы

Мониторинг большой быстрорастущей CDN-платформы инфраструктурными средствами является непрактичным. Zabbix отлично показывает состояние железа и сервисов, Prometheus покрывает работу микросервисов и приложений. К сожалению, это не гарантирует, что пользователь действительно видит контент, который он хочет. В нашем случае периодически отказывал функционал, который проблематично покрыть имеющимися средствами мониторинга, и в некоторых случаях страдал пользовательский опыт. При этом инфраструктурные метрики имели допустимые отклонения.
Мы добавили слой наблюдаемости со стороны пользователя, который закрывает разрыв между инфраструктурными метриками и реальным пользовательским опытом: эмуляцию действий пользователя через Playwright со стороны браузера пк и мобильной версии, проверку лент контента и поиска, контроль пользовательских трансляций с запуском RTMP-потока через FFMPEG, а также полный цикл работы студии автора - от загрузки видео до проверки воспроизведения и комментариев. Система формирует технические и пользовательские метрики, логирует ошибки и интегрируется в существующий контур наблюдаемости (Prometheus, Kafka, Kibana).
В докладе расскажем, как превратить автотестирование в слой observability UX. Покажем, как из Playwright и автотестов вырастить сервис для повышения отказоустойчивости, какие проблемы возникают при мониторинге потоковых видео и трансляций и почему синтетика должна стать еще одним слоем для хорошего пользовательского опыта.

Инженер мониторинга RUTUBE. Начинал карьеру с позиции стажера в пресейле и вырос до ведущего инженера систем мониторинга.
" В настоящий настоящий момент я занимаюсь разработкой синтетического мониторинга для видеоплатформы и работаю над научной диссертацией по теме предиктивного мониторинга для раннего выявления проблем. "

Видео

Другие доклады секции

SRE и эксплуатация систем