Как HeadHunter удалось безопасно нарушить RFC 793 (TCP) и обойти сетевые ловушки сервисной архитектуры DevOps и эксплуатация
Заместитель директора по эксплуатации сайта hh.ru. Работает в информационных технологиях с 1993 года. Прошел путь от системного администратора офиса (20 рабочих мест) до заместителя директора по эксплуатации сайта hh.ru (1,5 млн. посетителей в сутки).
Тезисы
В какой-то момент 3-й в мире работный сайт начал периодически падать на несколько минут. Сюрпризом стало то, что в этот раз действительно из-за сети.
Для масштабирования сервисов и их взаимодействия между собой hh.ru использует внутренний балансировщик. Обработку 25 тыс. запросов в секунду обеспечивают 5 серверов с nginx. Обращение к этим серверам балансирует коммутатор.
Я расскажу, как мы расследовали серию инцидентов, которая была вызвана нарушением протокола TCP при балансировке. И что мы придумали, чтобы продолжить безнаказанно его нарушать.