Эксплуатация портала Яндекс Основная секция
Тезисы
Примерный план:
- Собственные дата-центры, сетевая инфраструктура, особенности оборудования.
- Роль системного администратора. Основные задачи эксплуатации.
- Методы, которые позволяют порталу работать по схеме 7х24х365.
- Особенности работы с кластерами (управление, мониториг)
- Организация внедрения изменений на портал.
Собственно, мы можем рассказать о том, что держим проекты в собственных географически распределенных датацентрах в Москве, постоянно строим новые датацентры. У нас есть свои каналы и мы являемся сами себе провайдером, открыты для пиринга.
Закупаем стандартное оборудование, так как экзотическое не всегда есть на складах в России в нужных количествах и долго поставляется, а закупаем мы все большими партиями. Плюс проекты строятся по схеме, когда его работа не зависит от единого сервера или группы серверов.
Системные администраторы - это специалисты, которые входят в проектные команды, они не занимаются поддержкой пользователей, для этого существует отдельная группа дежурных администраторов. Системные администраторы думают про нагрузку, заказ новых серверов, придумывают новые программно-аппаратные конфигурации. Основная задача администраторов - обеспечить непрерывную и бесперебойную работу сервисов с заданными параметрами качества. Проблемы с мониторингом - обычно системные администраторы следят по логам и письмам, у нас 7х24х365 - sms на телефон, кластерные мониторинги, точно настроенные алерты.
Методы, которые позволяют порталу работать по схеме 7х24х365: географически распределенные логические кластера, рейды, избыточность, работа в условиях "минус 1 любой датацентр". При этом, возможно, поминание технологий, которые мы используем.
Ну и собственно рассказ про то, как у нас происходит внедрение изменений, так как этим тоже занимается эксплуатация портала.