Как мы защищаем при перегрузках миллионы клиентов посредством динамического троттлинга в высоконагруженных системах

DevOps и эксплуатация

Эксплуатация

Бэкенд / другое
Менеджмент в эксплуатации
Надёжность продакшена
Логи, метрики, ошибки
Оптимизация
ML
DevOps / SRE
Инфраструктура

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Как не допустить каскадного отключения бэкендов и баз данных из-за возросшей нагрузки на сервис и как правильно деградировать в такой сложной ситуации.

Целевая аудитория

Инженеры по развитию и эксплуатации высоконагруженных систем. Руководители, сталкивающиеся с проблемами перегрузок, находящиеся в поиске правильных путей решения проблем.

Тезисы

В своей практике мы часто сталкивались с проблемами, когда излишняя нагрузка на один компонент системы может влиять на другие, причем на первый взгляд не очень-то и связанные. В особо тяжелых случаях подобные перекрестные влияния могут начать каскадно утягивать за собой в недоступность значимые части комплекса.

Динамический троттлинг — наш подход к вопросу защиты сервисов от перегрузки. Механизм автоматически подстраивает объем пропускаемого трафика, реагируя на изменение состояния бэкендов.

* Как обезопасить себя и свои сервисы от разрушительных последствий сбоев или перегрузок?
* Как автоматически выявить деградирующую по производительности функцию API и что с ней делать дальше?
* Какие стратегии троттлинга уместно применить в случае с частыми перегрузками компонентов в распределенной системе?
* Как легко и просто настроить медленные и быстрые скользящие для определения вектора изменения производительности системы?

Ответы на эти вопросы раскрою в ходе доклада, также коснусь темы, как данное решение эксплуатируется и мониторится.

Технический руководитель по развитию интеграций бизнес-систем.

Nexign

Nexign — российская компания-разработчик OSS/BSS-систем, ведущий в России разработчик биллинга для телекоммуникационных компаний.

Видео