Как делать эффективные дашборды для 2000+ микросервисов?

Эксплуатация систем

Микросервисы, SOA
Логирование и мониторинг

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Многие рассказывают про то, что алертов и дашбордов должно быть не сильно много, чтобы не устать от них. Но мало кто задумывается о том, что у дашбордов в графане тоже должен быть хороший UI и UX. В этом докладе будут советы по настройке дашбордов для удобства и скорости.

Целевая аудитория

Разработчики уровня middle+ и senior, техлиды, SRE-инженеры.

Тезисы

Техплатформа Городских сервисов обеспечивает работу Яндекс Такси, Еды, Лавки и Доставки. Для каждого из этих направлений важна стабильность и надежность. И поэтому один из ключевых аспектов проектирования дашбордов для более чем 2000 микросервисов – их роль в диагностике и расследовании инцидентов. Дашборды должны помогать оперативно выявлять проблемы и их причины, что позволяет ускорить реакцию на инциденты и минимизирует время простоя. В этом контексте важно не только предоставить пользователям данные о текущем состоянии системы, но и организовать информацию так, чтобы она помогала быстро разобраться в ситуации и найти источник проблемы.

В своем докладе я подробно остановлюсь на следующих пунктах:
1. кто и как пользуется микросервисными дашбордами;
2. как генерируются дашборды для микросервисов;
3. какие требования мы предъявляем к дашбордам;
4. как выглядит дашборд микросервиса в Городских сервисах Яндекса.

Алексей Золотухин

Техплатформа Городских сервисов Яндекса

Разработчик в Группе разработки компонентов диагностики.

Видео