💻 Воркшоп: тушим инцидент, а не исполняем SRE-ритуалы

SRE и эксплуатация систем

Отказоустойчивость

Распределенные системы

Управление инцидентами

Практики программирования

Логи, метрики, ошибки

6 ноября, 17:00, «Зал B3»

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Практический воркшоп по тушению инцидентов: у всех свой стенд с сервисом, метрики/логи и GitLab CI. Запускаем «злой» трафик и спрятанные баги — находите причину, чините, деплоите. Формат соревновательный: очки и таблица лидеров. Без ритуалов — только практика.

Целевая аудитория

Разработчики, SRE-инженеры.

Тезисы

Все презентации конференции

Важно! Для участия требуется ноутбук с предустановленными WireGuard и SSH-клиентами.

В наше время существует очень много практик по предотвращению инцидентов и по ведению процессов вокруг них. Однако никто не умеет учить самому ТУШЕНИЮ инцидентов.

Мы считаем, что по-настоящему научиться локализовывать и решать проблемы во время инцидента можно только набивая шишки.

На воркшопе мы проведем игру, правила которой поместят игроков в условия близкие к инциденту. Таким образом, мы попытаемся набить те самые шишки участникам.

Формат игры:

Всем участникам выдадут заготовленный стенд, где будет развернут сервис, на который будет подаваться нагрузка, эмулирующая реальных пользователей. В сервисе будут заложены проблемы, которые будут активироваться с течением времени. Помимо сервиса стенд будет в себя включать базовую инфраструктуру, необходимую для выявления аномалий и их устранения: пайплайн доставки кода (GitLab), метрики (Victoria Metrics + Grafana), логи (Vector + Victoria Logs + Grafana).

Во время игры мы будем вести подсчет очков. Таким образом, в конце воркшопа будет составлен лидерборд, по которому будут распределяться призы.

Александр Ложкин

keep-alive.ru

Окончил ШАД на инфраструктурном треке. Сейчас занимается разработкой системы мониторинга в VK. Прошел путь от стажера-питониста до старшего Go-разработчика.