Платформа для 50000 приложений: как собрать инфраструктуру и выжить?

Platform Engineering

Отказоустойчивость

Распределенные системы

Методы и техника разработки ПО

Технологии отказоустойчивости и катастрофоустойчивости, бэкапы

Надёжность продакшена

Инфраструктура

7 ноября, 10:00, «Зал C1»

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Практический кейс по обеспечению очень высокой надежности комплексной системы на примере собственного облака Яндекса. Принципы обеспечения надежности будут продемонстрированы на всех уровнях архитектуры системы, чтобы в конце достичь наивысшей отказоустойчивости.

Целевая аудитория

Разработчики инфраструктуры; все, кто проектирует отказоустойчивые системы.

Тезисы

Все презентации конференции

В Яндексе используется, пожалуй, самое большое инфраструктурное облако в России: под его управлением находятся десятки тысяч сервисов и 150 тысяч серверов.

Страшно ли в такой системе проводить обновления? Как обеспечить максимальную надежность и при этом сохранить высокий темп релизов?

Мы поговорим о том, как сделать простой сложную инфраструктуру. Как жить сервису, когда вокруг все горит. Расскажу о том, как мы используем Kubernetes и CRD-манифесты для управления инфраструктурой и почему не все популярные решения одинаково хороши.

Всеволод Величко

Yandex Infrastructure

Больше 30 лет пишет код. Ради шутки скрещивал OCaml и PHP. Однажды патчил биос своего ноутбука. Пишет SSH-серверы, контроллеры Kubernetes и файловые системы. Знает, как в Linux используется сигнал 33. Много раз выкатывал релизы на сотни тысяч серверов за 10 минут и пока что не облажался. Сейчас пишет систему IaD.
Rescue diver и душнила.