Компания Антиплагиат – поисковик, ищущий совпадения в текстовых документах. Нагрузка меняется в течение суток вслед за нормальной активностью пользователей в РФ и странах СНГ, кроме того, есть ярко выраженная сезонность, пиковая нагрузка июня в 10 раз больше пиковой нагрузки в июле. Автомасштабирование сервисов позволяет очень сильно экономить. Я расскажу о том, как это устроено у нас в кубах. Казалось бы, используй спотовые инстансы и будешь экономить 70%, но не все так просто на самом деле. Можно экономить больше, при этом масштабирование будет происходить достаточно быстро, даже с толстыми ML-моделями.
В докладе будет рассказано о практике оптимизации настроек и опыте использования оптимизированных K8s-кластеров под управлением deckhouse на прерываемых (спотовых) инстансах в AWS и YC. Текущий суммарный размер K8s: 5500 подов, 3000 ядер, 8 ТБ памяти (в сезонном пике мы ожидаем стандартного увеличения кластера в 3-5 раз). Основной упор будет сделан на конкретных решениях, позволяющих платить меньше, а работать быстрее/надежнее. Расскажу о нашем практическом опыте в настройках, влияющих на скорость масштабирования, скорость работы и доступность сервисов. Пройдемся по особенностям использования compute-сервисов облаков, позволяющих снизить стоимость эксплуатации при сохранении приемлемого для компании уровня надежности.
В компании используется большое количество сервисов на основе ML-моделей, что влечет большой набор данных для первичной инициализации, старта и работы сервиса. Рассмотрим оптимизации, нацеленные на уменьшение времени старта таких сервисов при масштабировании, уменьшении объема межсервисного, служебного и инициализирующего трафика. В докладе будет представлен наш опыт оптимизации и эксплуатации таких кластеров в двух облачных провайдерах.