Как добыть SLO: источники и инструменты гномов SREдней полосы

DevOps-практики и культура

Devops / другое
DevOps / SRE

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Если вы стоите в начале пути построения своих SLO/SLI, то этот доклад поможет вам разобраться, с чего начать и как избежать подводных камней при внедрении.

Целевая аудитория

* SRE (инженеры по доступности сервиса); * инженеры, выполняющие роль SRE; * руководители команд (инженеры, тимлиды); * все, кто хочет применить SLI/SLO на практике. Мой доклад будет полезен SRE-инженерам и разработчикам. Я покажу процесс, как мы определяем SLO, как фиксируем договоренность, инструменты для реализации, сложности, которые вы встретите. Уровень аудитории — мидлы.

Тезисы

Для тех, кто уже понял, что такое SLI/SLO, теперь станет понятно, как это реализовать на практике.

Представь, ты — инициативный разработчик или инженер. Ты уже узнал, какая классная штука SLO и как оно помогает поддерживать работу сервисов и не замедлять разработку. Ты уже продал это руководству и команде — все жаждут увидеть это в действии. Ты полон энтузиазма и уверенности, что все быстро сделаешь, ведь, кажется, это делали много раз в разных компаниях, следуя заветам книг Google. Ты начинаешь искать готовый вариант, чтобы сделать первый MVP как можно быстрее. И понимаешь, что готового рецепта нет. Ты начинаешь поиск источников о практиках других компаний, инструментов для реализации и находишь частичные данные, но ты не знаешь, насколько этот айсберг велик. А хочется по-горячему, пока интерес не остыл, показать хоть что-то команде и принести пользу.

Поделюсь нашим опытом и наработками. Я бы хотел все это знать и иметь в самом начале работы с SLO.

SR-инженер (SRE). 4 года строит и эксплуатирует отказоустойчивые системы, сопровождает их, обрабатывает и анализирует сбои. Помогает увидеть уровень сервиса через SLI/SLO. Строит систему сбора логов.
Более 10 лет в разработке, более 18 лет в IT. Начал с сисадмина, дошел до руководителя группы программистов, а потом перешел в backend-разработку, где увлекся темой надежности систем и стал SRE.
Имеет опыт работы в сфере телекоммуникаций, финтеха и ретейла.
Автор телеграм-группы «ALLSO — все про SLO».

Сейчас — инженер по надежности в Ви. Tech.

Видео