Надежность и масштабируемость

О стриме развития

Стримы развития — это срежиссированные тематические маршруты по конференции

Программа стрима

Всё необходимое для глубокого погружения в тему

22 июня, 17:40 - 18:30, Зал Башня

Как организовать сетевую связность bare-metal Kubernetes

Расскажу какие есть варианты построение сетевой связности для bare-metal узла Kubernetes через BGP или L2 связность.

Антон Паус

Антон Паус

Cloud.ru

23 июня, 10:00 - 12:00, Зал Синий

💻 Воркшоп по надежности: «Рожденный устойчивым»

А вы тестировали свой прод? У вас есть облако, развернутые приложения, нагруженные базы данных и разная инфраструктурная обвязка. Когда случится инцидент — что вы будете делать?

Мы предлагаем вам командно погрузиться в последовательный разбор инцидентов в реальном времени. Вы получите заряженный стенд с «ловушками», которые никто обычно не ожидает. У вас будет отказоустойчивое web-приложение в выделенном пространстве облака.

Во время воркшопа вам предстоит работать с такими инфраструктурными сервисами: Managed Service for Kubernetes, Managed Service for PostgreSQL, Application Load Balancer, Monium и другие.

Вы погрузитесь в имеющуюся инфраструктуру, изучите ситуацию и будете митигировать импакт. В каждом случае вы совместно соберете план восстановления, который сможете забрать с собой. А самое ценное - это практический опыт, который вы получите в течение воркшопа!

Татьяна Сердинова

Татьяна Сердинова

Yandex Cloud

Антон Воронцов

Антон Воронцов

Yandex Cloud

Антон Егорушков

Антон Егорушков

Yandex Cloud

23 июня, 12:20 - 13:10, Зал Башня

Как жить без строгой консистентности и не терять деньги

Фундаментальный доклад, из которого вы узнаете (или вспомните), что такое CAP и PACELC, зачем нужны Saga и 2PC. А также на реальных примерах увидите, как выбор между консистентностью, доступностью и задержкой осуществляется не на уровне системы в целом, а на уровне отдельных шагов бизнес-операций.

Борисова Дарья Игоревна

Борисова Дарья Игоревна

ПСБ

23 июня, 18:20 - 19:10, Зал Башня

Автоматизация PostMortem: баланс между скоростью и качеством анализа критичных инцидентов

Postmortem-анализ является одним из ключевых инструментов повышения надежности ИТ-систем, поскольку позволяет выявлять корневые причины сбоев и снижать риск их повторения. По мере усложнения ИТ-ландшафта, роста числа взаимосвязей между сервисами и усиления экосистемного взаимодействия проведение такого анализа в ручном режиме требует все больших временных и организационных затрат. При этом ожидания бизнеса остаются неизменными: критически важные системы должны восстанавливаться быстро, а разбор инцидентов — быть глубоким, системным и приводить к предотвращению аналогичных событий в будущем. В докладе будет представлен практический опыт развития postmortem-процесса в нашей компании: от создания централизованного подразделения Mission Control Center и формализации единых подходов для экосистемы до отказа от Excel- и Word-документов в пользу специализированных инструментов, автоматизации рутинных операций и создания Postmortem Copilot. Особое внимание будет уделено тому, как поэтапная автоматизация позволила сократить трудоемкость анализа критичных инцидентов и при этом сохранить необходимый уровень качества и полноты разбора. Результатом внедрения данного подхода стало существенное ускорение postmortem-анализа: время выполнения рутинной части процесса сократилось с 4–6 часов до 30 минут. Дополнительно был внедрен контроль качества проведенного анализа критичных инцидентов, что способствовало повышению эффективности восстановления критически важных систем; соответствующий показатель улучшился на 26% год к году. В настоящее время мы развиваем гибридный подход к автоматизации postmortem-процесса с применением методов искусственного интеллекта и машинного обучения в сочетании с ручной экспертной валидацией. В рамках доклада будет показано, какие этапы postmortem-анализа целесообразно автоматизировать в первую очередь, где проходит граница применимости AI/ML-подходов и почему сохранение экспертного участия остается необходимым условием для достижения баланса между скоростью и качеством анализа критичных инцидентов.

Андрей Давыдков

Андрей Давыдков

MWS