Платформа для 50.000 приложений: как собрать инфраструктуру и выжить?

Platform Engineering

Отказоустойчивость
Распределенные системы
Методы и техника разработки ПО
Архитектура данных, потоки данных, версионирование
Технологии отказоустойчивости и катастрофоустойчивости, бэкапы
Надёжность продакшена
Инфраструктура

Доклад принят в программу конференции

Целевая аудитория

Разработчики инфраструктуры; все, кто проектирует отказоустойчивые системы.

Тезисы

В Яндексе используется, пожалуй, самое большое инфраструктурное облако в России, под его управлением находятся десятки тысяч сервисов и 150 тысяч серверов.
Страшно ли в такой системе проводить обновления? Как обеспечить максимальную надёжность и при этом сохранить высокий темп релизов?
Мы поговорим о том, как сделать простой сложную инфраструктуру. Что делать, если бизнес-юниты предъявляют разные функциональные требования. Как жить, если инфраструктура постоянно эволюционирует. Расскажу о том, как мы используем Kubernetes и CRD манифесты для управления инфраструктурой, и как нам в этом помогает Protobuf.

Больше 30 лет пишу код. Ради шутки скрещивал OCaml и PHP. Однажды патчил биос своего ноутбука. Пишу SSH-серверы, контроллеры kubernetes и файловые системы. Знаю, как в линуксе используется сигнал 33. Много раз выкатывал релизы на сотни тысяч серверов за 10 минут и пока что не облажался. Сейчас пишу систему IaD.
Rescue diver и душнила.

Видео