Надежность и масштабируемость
О стриме развития
Программа стрима
Всё необходимое для глубокого погружения в тему
Как жить без строгой консистентности и не терять деньги
Фундаментальный доклад, из которого вы узнаете (или вспомните), что такое CAP и PACELC, зачем нужны Saga и 2PC. А также на реальных примерах увидите, как выбор между консистентностью, доступностью и задержкой осуществляется не на уровне системы в целом, а на уровне отдельных шагов бизнес-операций.
Автоматизация PostMortem: баланс между скоростью и качеством анализа критичных инцидентов
Postmortem-анализ является одним из ключевых инструментов повышения надежности ИТ-систем, поскольку позволяет выявлять корневые причины сбоев и снижать риск их повторения. По мере усложнения ИТ-ландшафта, роста числа взаимосвязей между сервисами и усиления экосистемного взаимодействия проведение такого анализа в ручном режиме требует все больших временных и организационных затрат. При этом ожидания бизнеса остаются неизменными: критически важные системы должны восстанавливаться быстро, а разбор инцидентов — быть глубоким, системным и приводить к предотвращению аналогичных событий в будущем. В докладе будет представлен практический опыт развития postmortem-процесса в нашей компании: от создания централизованного подразделения Mission Control Center и формализации единых подходов для экосистемы до отказа от Excel- и Word-документов в пользу специализированных инструментов, автоматизации рутинных операций и создания Postmortem Copilot. Особое внимание будет уделено тому, как поэтапная автоматизация позволила сократить трудоемкость анализа критичных инцидентов и при этом сохранить необходимый уровень качества и полноты разбора. Результатом внедрения данного подхода стало существенное ускорение postmortem-анализа: время выполнения рутинной части процесса сократилось с 4–6 часов до 30 минут. Дополнительно был внедрен контроль качества проведенного анализа критичных инцидентов, что способствовало повышению эффективности восстановления критически важных систем; соответствующий показатель улучшился на 26% год к году. В настоящее время мы развиваем гибридный подход к автоматизации postmortem-процесса с применением методов искусственного интеллекта и машинного обучения в сочетании с ручной экспертной валидацией. В рамках доклада будет показано, какие этапы postmortem-анализа целесообразно автоматизировать в первую очередь, где проходит граница применимости AI/ML-подходов и почему сохранение экспертного участия остается необходимым условием для достижения баланса между скоростью и качеством анализа критичных инцидентов.
💻 Воркшоп по надежности: «Рожденный устойчивым»
Проведем воркшоп по надежности для разработчиков и инженеров. Разберем принципы архитектуры отказоустойчивости. Развернём отказоустойчивое web-приложения в Yandex Cloud с помощью сетевого балансировщика нагрузки (NLB). Протестируем кейсы High availability и получим Recovery Plan.
Форматы
Краткий гид по форматам в программе
Доклад / лекция
Классический рассказ в лекционном формате.
Мастер-классы
Практика, в рамках которой докладчик шаг за шагом показывает решение рабочей задачи или обучающий кейс, а участники слушают и, возможно, выполняют задания самостоятельно или в командах.
Блиц-доклады (Lightning talks)
Короткие доклады до 20 минут — отдельные или объединенные общей темой.
Круглые столы
Несколько экспертов обсуждают острую тему со сцены. Остальные наблюдают. Любой из зала может задать вопрос или предложить решение, если хочет внести вклад.
Групповая работа
Мы делим участников на несколько тематических групп.
У каждой группы своя подтема (что именно аргументировать, кому именно аргументировать - разделённые по
какому-то принципу). Группы обсуждают, может быть играют в имитационную игру, где пробуют свои аргументы
в бою, затем кто-то от каждой группы делает доклад на 10 минут уже для всей аудитории. В конце выбираем
самую полезную группу.
Панельная дискуссия
Это сессия ответов на наиболее интересные в секции вопросы от представителей разных отраслей и компаний. Честно, аргументированно и "без купюр".