Как мы делали крупнейший инфраструктурный проект в истории компании

Архитектура и масштабируемость

Безопасность инфраструктуры

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

Руководители IT Архитекторы Разработчики DevOps

Тезисы

Наша компания столкнулась с проблемой роста: масштабы бизнеса перестали умещаться в рамки, которые могли предложить ЦОДы в Новосибирске. Нашей задачей стала организация переезда в московский дата-центр в условиях жестких ограничений: без недельных технических окон, с минимальным запасом мощностей и необходимостью преодолеть расстояние 3000 км.

Мы увидели в этом возможность полной трансформации инфраструктуры. За полтора года наш проект прошел от набросков на досках, до физического размещения сервисов и железа в новом ЦОДе. Кульминацией стал интенсивный месячный спринт, в ходе которого команда удаленно развернула и протестировала обновленную платформу ключевых сервисов, включая GitLab, Kubernetes, Kafka и другие.

Мы воспользовались шансом построить идеальную, современную инфраструктуру с чистого листа: новое оборудование, сетевая архитектура spine-leaf, актуальные ОС. Ничего не перенося со старой площадки, мы автоматизировали развертывание всего через Ansible. Это позволило за сутки заново развернуть все 300 сервисов, используя миграцию как мощный инструмент для одномоментного устранения накопленного технического долга.

Путь, конечно был не простым и мы извлекли ценные уроки из неочевидных моментов:
* Апгрейд Python: Переход между мажорными версиями преподнес сюрприз, временно затронув работу аналитики и деплоя.
* Nginx → Angie: Смена балансировщика привела к расхождению в метриках и особенностям отдачи данных, что стало неожиданностью для нашей команды SRE
* Consul 1.15→1.22: Обновление потребовало адаптации процесса синхронизации систем между площадками из-за изменений в логике регистрации. После миграции часть сервисов внезапно захотело обратно в Новосибирск
* Наши телевизоры, которые в ПВЗ показывали рекламу, внезапно "съели" заглушку о тех. работах и заблокировались

Наш доклад — это живой разбор этого масштабного квеста с интерактивом. В ключевых точках истории вы сможете сами принимать решения и сразу видеть их последствия, погружаясь в наш опыт.

Вы узнаете и получите готовые рецепты:
* Как организовать и выполнить миграцию 300+ сервисов за 24 часа без простоев, управляя процессом за 3000 км.
* Почему иногда выгоднее построить с нуля и как использовать это для рывка в развитии инфраструктуры.
* На что обратить внимание при смене ОС, сетевой архитектуры и других сервисов, чтобы избежать сюрпризов.
* Множество других уникальных кейсов и их решений

Руководитель DevOps-направления в компании CDEK.

Руководитель департамента инфраструктурных сервисов СДЭК. Руковожу группами devops, dba, infrastructure, sre.

Видео

Другие доклады секции

Архитектура и масштабируемость