Оптимизация стоимости владения K8s-кластерами в AWS и YC, или Как сэкономить 100500 на кубиках за год

Архитектура

Работа с облачными сервисами

Надёжность продакшена

DevOps / Кубер

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Доклад о том, как в «Антиплагиате» оптимизировали K8s-кластеры в AWS и YC: 5500 подов, споты, Deckhouse, ML-сервисы, автомасштабирование. Как запускать быстрее, платить меньше и переживать пиковые нагрузки без боли. Реальные настройки, фишки и грабли.

Целевая аудитория

Технические директора, DevOps, FinOps.

Тезисы

Скачать презентацию Все презентации конференции

Компания Антиплагиат – поисковик, ищущий совпадения в текстовых документах. Нагрузка меняется в течение суток вслед за нормальной активностью пользователей в РФ и странах СНГ, кроме того, есть ярко выраженная сезонность, пиковая нагрузка июня в 10 раз больше пиковой нагрузки в июле. Автомасштабирование сервисов позволяет очень сильно экономить. Я расскажу о том, как это устроено у нас в кубах. Казалось бы, используй спотовые инстансы и будешь экономить 70%, но не все так просто на самом деле. Можно экономить больше, при этом масштабирование будет происходить достаточно быстро, даже с толстыми ML-моделями.

В докладе будет рассказано о практике оптимизации настроек и опыте использования оптимизированных K8s-кластеров под управлением deckhouse на прерываемых (спотовых) инстансах в AWS и YC. Текущий суммарный размер K8s: 5500 подов, 3000 ядер, 8 ТБ памяти (в сезонном пике мы ожидаем стандартного увеличения кластера в 3-5 раз). Основной упор будет сделан на конкретных решениях, позволяющих платить меньше, а работать быстрее/надежнее. Расскажу о нашем практическом опыте в настройках, влияющих на скорость масштабирования, скорость работы и доступность сервисов. Пройдемся по особенностям использования compute-сервисов облаков, позволяющих снизить стоимость эксплуатации при сохранении приемлемого для компании уровня надежности.

В компании используется большое количество сервисов на основе ML-моделей, что влечет большой набор данных для первичной инициализации, старта и работы сервиса. Рассмотрим оптимизации, нацеленные на уменьшение времени старта таких сервисов при масштабировании, уменьшении объема межсервисного, служебного и инициализирующего трафика. В докладе будет представлен наш опыт оптимизации и эксплуатации таких кластеров в двух облачных провайдерах.

Андрей Ивахненко

Антиплагиат

Начал карьеру в наукоемком стартапе, организованном сотрудниками ВЦ РАН. За время работы пришлось поработать в ролях: ML-разработчика, разработчика алгоритмов, занимался разработкой и оптимизацией кода на C++ и C# (бэкенд, алгоритмы, структуры данных). Более десяти лет руководил командами, отвечающими за разные направления в IT (SRE, DevOps, SysOps, DataProcessing) в российском сервисе поиска заимствований Антиплагиат. Кроме команд отвечал за развитие инфраструктуры: собственные сервера, взаимодействие несколькими облачными провайдерами, сети, системы совместной работы сотрудников. Занимался также внедрением и эксплуатацией сервиса Антиплагиат вместе с командами SRE, DevOps. Помогал клиентам по вопросам изменения инфраструктуры и интеграции систем заказчика с сервисом проверки на заимствования. Участвовал в принятии решений по изменениям архитектуры и функциональности сервиса. За время работы IТ-инфраструктура продакшна расширилась с двух серверов до десятка тысяч ядер в собственном железе и нескольких облачных провайдеров. Сейчас занимается развитием EdTech стартапа по этичному использованию ГенИИ в образовании и науке.