Воркшоп: Тушим инцидент, а не исполняем SRE ритуалы

SRE и эксплуатация систем

Отказоустойчивость
Распределенные системы
Управление инцидентами
Практики программирования
Логи, метрики, ошибки

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Практический воркшоп по тушению инцидентов: у всех свой стенд с сервисом, метрики/логи и GitLab CI. Запускаем «злой» трафик и спрятанные баги — находите причину, чините, деплоите. Формат соревновательный: очки и таблица лидеров. Без ритуалов — только практика.

Целевая аудитория

Разработчики, SRE инженеры.

Тезисы

В наше время существует очень много практик по предотвращению инцидентов и по ведению процессов вокруг них. Однако, никто не умеет учить самому ТУШЕНИЮ инцидентов.

Мы считаем, что по-настоящему научиться локализовывать и решать проблемы во время инцидента можно только «набивая шишки».

На воркшопе мы проведем игру, правила которой поместят игроков в условия близкие к инциденту. Таким образом, мы попытаемся набить те самые шишки участникам.

Формат игры:
Всем участникам будет выдан заготовленный стенд, где будет развернут сервис, на который будет подаваться нагрузка, эмулирующая реальных пользователей. В сервисе будут заложены проблемы, которые будут активироваться с течением времени. Помимо сервиса стенд будет в себя включать базовую инфраструктуру, необходимую для выявления аномалий и их устранения: пайплайн доставки кода (gitlab), метрики (Victoria metrics + grafana), логи (vector + Victoria logs + grafana)

Во время игры мы будем вести подсчет очков. Таким образом, в конце воркшопа будет составлен лидерборд, по которому будут распределяться призы.

Закончил ШАД на инфраструктурном треке. Сейчас занимаюсь разработкой системы мониторинга в VK. Прошел путь от стажера питониста до старшего go разработчика.

Видео

Подготовительное задание
Для воркшопа понадобятся предустановленные wireguard и ssh клиенты.

Другие доклады секции

SRE и эксплуатация систем