Антон Алексеев на HighLoad++ 2024

Nvidia Triton Inference Server: строим production ML без разработчиков

BigData и инфраструктура машинного обучения (data engineering)

Оптимизация

2 декабря, 10:15, Зал «11. Белу-Оризонти (2 этаж)»

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Спикер из Selectel расскажет про аспекты реализации инференс платформы на базе Triton Nvidia Server - почему они ушли от Seldon, как реализовали скейлинг ресурсов, канареечный деплой моделей и инференс граф, а также как увеличить пропускную способность инференса в 10 раз за счет оптимизации triton.

Целевая аудитория

Доклад будет полезен для лидов, техлидов, СТО, инженеров, работающих с ML-моделями, предоставляя им практические решения и стратегии для эффективного управления и развертывания моделей в продакшн-среде с использованием опенсорс-сервисов. Решение может повторить каждый, обладая необходимой для этого инфраструктурой.

Тезисы

Скачать презентацию Все презентации конференции

В докладе я поделюсь опытом разработки и внедрения инференс-платформы на базе Triton Inference Server и Kubernetes. С какими проблемами мы столкнулись в Seldon и почему отказались от него. Как мы обеспечили канареечный деплой инференсов с помощью Istio. Каким образом реализовали инференс-граф на отдельных нодах с GPU с помощью Ray.

Вы узнаете, как наше решение позволило увеличить пропускную способность инференса в 10 раз. За счет чего это произошло?
Мы используем автоматический подбор конфигураций Triton для сетапа динамического батчинга запросов и конвертацию разных форматов моделей в tensorrt.

Поделюсь, как мы реализовали автоскейлинг для отказоустойчивости при высоких нагрузках, а также как мы боролись с большими ML-образами при скейлинге.

Какие профиты мы еще получили? Теперь дата-сайентисты могут сами деплоить модели с минимальным участием опсов.

Антон Алексеев

Selectel

DevОps-инженер в облаке, пришёл из автоматизации производств. Видел и ломал настоящие конвейеры. Сейчас активно занимается ML-инфраструктурой. Последнее время его называют StandOps.

Пишет в телеграм-канал @easy_dev_ops.

Selectel

Selectel — крупнейший независимый провайдер сервисов IT-инфраструктуры в России. Компания занимает лидирующие позиции на рынке выделенных серверов и приватных облаков, управляет облачной платформой собственной разработки и входит в топ-3 крупнейших поставщиков IaaS в России.