От автоматизации к платформе: эволюция управления инфраструктурой в Sage

Архитектура и масштабируемость

Масштабирование с нуля
Управление конфигурацией
DevOps на собственном (арендованном) оборудовании
Observability в enterprise
Доверие команды внутри и снаружи
Автоматизация разработки, доставки, эксплуатации
DevOps / Кубер
DevOps / SRE
Железо
Инфраструктура

Доклад принят в программу конференции

Целевая аудитория

Что смогут забрать SRE? - разработка, тестирование, интеграция и деплой инфраструктуры не отличается от любого приложения/сервиса - day-1, day-2 автоматизация - более 90% инфраструктурной автоматизации портируются в любую новую среду без изменений - любые облака или дата-центры Что заберут разработчики и архитекторы? - архитектура инфраструктурной платформы для разработчиков одного продукта - инверсия зависимостей на всех уровнях - общий интуитивно-понятный архитектурный фреймворк автоматизации всего. Что может забрать менеджмент? - деплой большой системы "в одну команду" ускоряет запуск пилотов и освоение новых мощностей - синергитический эффект обратного маневра - внедрение SRE-партнеров в команды разработки ускоряет освоение новых мощностей и инфраструктрных компонентов - снижение операционных издержек - принципиально иная форма автоматизации сводит издержки к минимуму в перспективе

Тезисы

Система на тысячи хостов, сотни разрозненных инструментов, у каждого свои скрипты и процессы — настоящий зоопарк.
Увидеть всю свою инфраструктуру целиком невозможно. Инвентаризация фрагментирована, а автоматизация — хаос из «авторских» решений.
Любая мелочь — потенциальный сбой на десятках систем и на часы восстановления. Миграция - многомесячный полу-ручной процесс. Это не просто неудобство, это риск, который ведет к стагнации или даже провалу.

В докладе расскажу, как мы трансформируем подход к инфраструктуре: перестраиваем процессы, команды, роли и инженерную культуру. Почему отказались от «DevOps как набора тулов» в пользу продуктового мышления в CoreTech. Как мы превращаем инфраструктурные компоненты в управляемые ресурсы, а SRE-инженеров — в разработчиков платформы и её же клиентов.

Доклад - попытка ответить на следующие вопросы:
- Как эволюционируют системы управления инфраструктурой?
- Инфраструктурная платформа для одного продукта? Серьезно?
- Как масштабирование меняет оргструктуру, процессы и образ мышления?
- Как освоить инфраструктуру из сотен, тысяч и десятков тысяч хостов?
- Почему k8s - нечто большее, чем поды, деплойменты и сервисы?
- Как технически и процессно устроена инфраструктурная платформа в Sage?

Разработчик. Участвовал в доменно-сложном проекте на десятки миллионов строк. Далее помогал в развитии высоконагруженного пайплана записи логов с потоком в 4-5 ГБ/c в observability-платформе Sage. Сейчас в команде Sage Control Plane мы преодолеваем инфраструктурные барьеры на пути к масштабированию Sage до сотен тысяч хостов.

Видео

Другие доклады секции

Архитектура и масштабируемость