В Ozon нагрузочное тестирование проводится по продакшн-окружению, используя реальные запросы пользователей. Одна из проблем — все эти запросы собрать. Мы это делаем, клонируя трафик с других сервисов. И если другие сервисы держат нагрузку только от их пользователей, то наш сервис держит суммарную нагрузку сотен сервисов.
В своем докладе я расскажу про:
* первую версию архитектуры, державшую нагрузку в тысячи раз меньше текущей;
* сложности, с которыми мы столкнулись. В частности, как положили Kafka для части сервисов;
* развитие архитектуры вплоть до текущей версии, выдерживающей 1 500 000 RPS;
* как мы ежедневно записываем 20 терабайт трафика;
* зачем мы это делаем.