Как приручить хаос платформу
Программный комитет ещё не принял решения по этому докладу
Целевая аудитория
Тезисы
Со времен первой презентации нашей платформы на DevOpsConf мы успели сделать что-то новое, от чего-то погрустить, с чем-то побороться, где-то победить, а где-то проиграть.
Например, мы пытались решить проблему распределенного запуска экспериментов из сценариев на N агентов с M паралельностью запуска экспериментов. Боролись с обеспечением отказоустойчивости, мастабированием контроллеров агентов и сохранением состояния очереди в процессе ее выполнения.
Эволюция обработки очереди:
* один эксземпляр очереди в памяти контроллера агентов
* несколько экземпляров контроллера, очередь в redis с версионированием ресурсов
* таблицы в постгрес
Отдельной проблемой было согласованное выполнение очереди задач в различных инфраструктурных средах с отсылкой репортов от каждого эксперимента и реализация механизма обработки прерывания сценариев.
20 лет в ИТ. Больше половины из этого проработал в инфраструктурных командах больших отечественных и западных компаний. Последние годы занимаюсь коммерческой разработкой на Go.
Видео
Другие доклады секции
SRE и эксплуатация систем