Оптимизация стоимости владения K8S кластерами в AWS и YC или как сэкономить 100500 на кубиках за год
Доклад принят в программу конференции
Целевая аудитория
Тезисы
Компания Антиплагиат – поисковик, ищущий совпадения в текстовых документах. Нагрузка меняется в течении суток вслед за нормальной активностью пользователей в РФ и странах СНГ, кроме того, есть ярко выраженная сезонность, пиковая нагрузка июня в 10 раз больше пиковой нагрузки в июле. Автомасштабирование сервисов позволяет очень сильно экономить. Я расскажу о том, как это устроено у нас в кубах. Казалось бы, используй спотовые инстансы и будешь экономить 70%, но не все так просто на самом деле. Можно экономить больше, при этом масштабирование будет происходить достаточно быстро, даже с толстыми ML-моделями.
В докладе будет рассказано о практике оптимизации настроек и опыте использования оптимизированных K8S кластеров под управлением deckhouse на прерываемых(спотовых) инстансах в AWS и YC. Текущий суммарный размер K8S: 5500 подов, 3000 ядер, 8 ТБ памяти (в сезонном пике мы ожидаем стандартного увеличения кластера в 3-5раз). Основной упор будет сделан на конкретных решениях позволяющих платить меньше а работать быстрее/надежнее. Расскажу наш практический опыт в настройках, влияющих на скорость масштабирования, скорость работы и доступность сервисов. Пройдемся по особенностям использования compute сервисов облаков позволяющих снизить стоимость эксплуатации при сохранении приемлемого для компании уровня надежности. В компании используется большое количество сервисов на основе ML-моделей, что влечет большой набор данных для первичной инициализации, старта и работы сервиса. Рассмотрим оптимизации, нацеленные на уменьшение времени старта таких сервисов при масштабировании, уменьшении объема межсервисного, служебного и инициализирующего трафика. В докладе будет представлен наш опыт оптимизаций и эксплуатации таких кластеров в двух облачных провайдерах.
Начал карьеру в наукоемком стартапе организованном сотрудниками ВЦ РАН. За время работы пришлось поработать в ролях: ML-разработчика, разработчика алгоритмов, занимался разработкой и оптимизацией кода на C++ и C# (бэкэнд, алгоритмы, структуры данных). Десять с лишним лет руковожу командами отвечающим за разные направления в IT в российском сервисе поиска заимствований Антиплагиат. Под моим началом собственные сервера, взаимодействие несколькими облачными провайдерами, сети, системы совместной работы сотрудников. Занимаюсь также внедрением и эксплуатацией сервиса Антиплагиат вместе с командами SRE, DevOps. Помогаю клиентам по вопросам изменения инфраструктуры и интеграции систем заказчика с сервисом проверки на заимствования. Меняю архитектуру сервиса. За время работы ИТ инфраструктура продакшена расширилась с двух серверов до десятка тысяч ядер в собственном железе и нескольких облачных провайдерах.
Компания Антиплагиат – разработчик системы «Антиплагиат», российского решения по обнаружению текстовых заимствований. Эксперты в обработке документов и поиске в больших объемах данных. Разработчик собственных решений по поиску: кроссязыковых и перефразированных заимствований, заимствований в рукописных текстах и программном коде, по изображениям. Собственное решение по детекции машинно-сгенерированного текста. Команда сервиса регулярно участвует и побеждает в соревнованиях в области обработки текстов и документов на естественных языках.
Видео
Другие доклады секции
Архитектура