Надежность и масштабируемость
О стриме развития
Программа стрима
Всё необходимое для глубокого погружения в тему
💻 Воркшоп по надежности: «Рожденный устойчивым»
А вы тестировали свой прод? У вас есть облако, развернутые приложения, нагруженные базы данных и разная инфраструктурная обвязка. Когда случится инцидент — что вы будете делать?
Мы предлагаем вам командно погрузиться в последовательный разбор инцидентов в реальном времени. Вы получите заряженный стенд с «ловушками», которые никто обычно не ожидает. У вас будет отказоустойчивое web-приложение в выделенном пространстве облака.
Во время воркшопа вам предстоит работать с такими инфраструктурными сервисами: Managed Service for Kubernetes, Managed Service for PostgreSQL, Application Load Balancer, Monium и другие.
Вы погрузитесь в имеющуюся инфраструктуру, изучите ситуацию и будете митигировать импакт. В каждом случае вы совместно соберете план восстановления, который сможете забрать с собой. А самое ценное - это практический опыт, который вы получите в течение воркшопа!
Как жить без строгой консистентности и не терять деньги
Фундаментальный доклад, из которого вы узнаете (или вспомните), что такое CAP и PACELC, зачем нужны Saga и 2PC. А также на реальных примерах увидите, как выбор между консистентностью, доступностью и задержкой осуществляется не на уровне системы в целом, а на уровне отдельных шагов бизнес-операций.
Автоматизация PostMortem: баланс между скоростью и качеством анализа критичных инцидентов
Postmortem-анализ является одним из ключевых инструментов повышения надежности ИТ-систем, поскольку позволяет выявлять корневые причины сбоев и снижать риск их повторения. По мере усложнения ИТ-ландшафта, роста числа взаимосвязей между сервисами и усиления экосистемного взаимодействия проведение такого анализа в ручном режиме требует все больших временных и организационных затрат. При этом ожидания бизнеса остаются неизменными: критически важные системы должны восстанавливаться быстро, а разбор инцидентов — быть глубоким, системным и приводить к предотвращению аналогичных событий в будущем. В докладе будет представлен практический опыт развития postmortem-процесса в нашей компании: от создания централизованного подразделения Mission Control Center и формализации единых подходов для экосистемы до отказа от Excel- и Word-документов в пользу специализированных инструментов, автоматизации рутинных операций и создания Postmortem Copilot. Особое внимание будет уделено тому, как поэтапная автоматизация позволила сократить трудоемкость анализа критичных инцидентов и при этом сохранить необходимый уровень качества и полноты разбора. Результатом внедрения данного подхода стало существенное ускорение postmortem-анализа: время выполнения рутинной части процесса сократилось с 4–6 часов до 30 минут. Дополнительно был внедрен контроль качества проведенного анализа критичных инцидентов, что способствовало повышению эффективности восстановления критически важных систем; соответствующий показатель улучшился на 26% год к году. В настоящее время мы развиваем гибридный подход к автоматизации postmortem-процесса с применением методов искусственного интеллекта и машинного обучения в сочетании с ручной экспертной валидацией. В рамках доклада будет показано, какие этапы postmortem-анализа целесообразно автоматизировать в первую очередь, где проходит граница применимости AI/ML-подходов и почему сохранение экспертного участия остается необходимым условием для достижения баланса между скоростью и качеством анализа критичных инцидентов.