Воркшоп: тушим инцидент, а не исполняем SRE-ритуалы

SRE и эксплуатация систем

Отказоустойчивость
Распределенные системы
Управление инцидентами
Практики программирования
Логи, метрики, ошибки

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Практический воркшоп по тушению инцидентов: у всех свой стенд с сервисом, метрики/логи и GitLab CI. Запускаем «злой» трафик и спрятанные баги — находите причину, чините, деплоите. Формат соревновательный: очки и таблица лидеров. Без ритуалов — только практика.

Целевая аудитория

Разработчики, SRE-инженеры.

Тезисы

В наше время существует очень много практик по предотвращению инцидентов и по ведению процессов вокруг них. Однако никто не умеет учить самому ТУШЕНИЮ инцидентов.

Мы считаем, что по-настоящему научиться локализовывать и решать проблемы во время инцидента можно только набивая шишки.

На воркшопе мы проведем игру, правила которой поместят игроков в условия близкие к инциденту. Таким образом, мы попытаемся набить те самые шишки участникам.

Формат игры:

Всем участникам выдадут заготовленный стенд, где будет развернут сервис, на который будет подаваться нагрузка, эмулирующая реальных пользователей. В сервисе будут заложены проблемы, которые будут активироваться с течением времени. Помимо сервиса стенд будет в себя включать базовую инфраструктуру, необходимую для выявления аномалий и их устранения: пайплайн доставки кода (GitLab), метрики (Victoria Metrics + Grafana), логи (Vector + Victoria Logs + Grafana).

Во время игры мы будем вести подсчет очков. Таким образом, в конце воркшопа будет составлен лидерборд, по которому будут распределяться призы.

Окончил ШАД на инфраструктурном треке. Сейчас занимается разработкой системы мониторинга в VK. Прошел путь от стажера-питониста до старшего Go-разработчика.

Видео

Подготовительное задание
Для воркшопа понадобятся предустановленные wireguard и ssh клиенты.