Как (не)пережить падение ЦОДа

Эксплуатация систем

Базы данных / другое
Отказоустойчивость
Архитектуры / другое
Работа с облачными сервисами
Большие проекты/команды
Антикризисный менеджмент

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Доклад поможет по-новому взгянуть на надежность вашего нынешнего ЦОД или того, куда вы только планируете ехать. Узнаете про аудит, который проводил VK Tech в ряде центров. Опыт докладчика и возможные проблемы в ДЦ приложите к вашим системам, честно ответите сами себе о том, затронут они вас или нет.

Целевая аудитория

Архитекторы, SRE, DevОps, СТО, CPO, технические менеджеры.

Тезисы

ЦОДы уровня TIER 3 не падают. А даже если падают, то есть DRP-планы, и на бумаге мы должны прекрасно пережить отказ дата-центра. Поэтому часто бывает соблазн отложить задачи техдолга чуть в сторону. Но иногда достаточно проблем с электропитанием, программного сбоя или просто человеческого фактора, и все риски могут стрельнуть разом.

Расскажем о том, как пережить падение ЦОДа на опыте VK Cloud. Как мы восстанавливались, корректируя архитектуру решения без простоя для клиентов и сервисов, и какие уроки приготовили для вас.

Директор по надежности сервисов VK Tech
Работает в сфере облачных сервисов с 2012 года, развивал приватные и публичные облака Ростелекома, МВД, Яндекса, Mail.RU и т.д.

VK, VK Tech

VK — это более 200 технологичных и высоконагруженных проектов, свыше 15 000 сотрудников. ВКонтакте, ОК, VK Cloud, Дзен, Маруся, VK Play — это лишь часть продуктов VK, которыми ежедневно пользуются миллионы людей. VK Tech — команда из 1400 специалистов в России и Казахстане. Разрабатывают и продвигают облачные платформы и сервисы VK Cloud, in-memory СУБД Tarantool, коммуникационные решения — от почты VK WorkSpace до супераппа VK Teams и решения для автоматизации HR и финансов. Внутри: C++, Python, Go, Java, Javascript, Lua.

Видео