Как приручить хаос платформу

SRE и эксплуатация систем

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

SRE инженеры, тимлиды инфраструктурных команд

Тезисы

Со времен первой презентации нашей платформы на DevOpsConf мы успели сделать что-то новое, от чего-то погрустить, с чем-то побороться, где-то победить, а где-то проиграть.
Например, мы пытались решить проблему распределенного запуска экспериментов из сценариев на N агентов с M паралельностью запуска экспериментов. Боролись с обеспечением отказоустойчивости, мастабированием контроллеров агентов и сохранением состояния очереди в процессе ее выполнения.
Эволюция обработки очереди:
* один эксземпляр очереди в памяти контроллера агентов
* несколько экземпляров контроллера, очередь в redis с версионированием ресурсов
* таблицы в постгрес
Отдельной проблемой было согласованное выполнение очереди задач в различных инфраструктурных средах с отсылкой репортов от каждого эксперимента и реализация механизма обработки прерывания сценариев.

Алексей Елагин

Райффайзен Банк

20 лет в ИТ. Больше половины из этого проработал в инфраструктурных командах больших отечественных и западных компаний. Последние годы занимаюсь коммерческой разработкой на Go.

Видео