В докладе я поделюсь опытом разработки и внедрения инференс-платформы на базе Triton Inference Server и Kubernetes. С какими проблемами мы столкнулись в Seldon и почему отказались от него. Как мы обеспечили канареечный деплой инференсов с помощью Istio. Каким образом реализовали инференс-граф на отдельных нодах с GPU с помощью Ray.
Вы узнаете, как наше решение позволило увеличить пропускную способность инференса в 10 раз. За счет чего это произошло?
Мы используем автоматический подбор конфигураций Triton для сетапа динамического батчинга запросов и конвертацию разных форматов моделей в tensorrt.
Поделюсь, как мы реализовали автоскейлинг для отказоустойчивости при высоких нагрузках, а также как мы боролись с большими ML-образами при скейлинге.
Какие профиты мы еще получили? Теперь дата-сайентисты могут сами деплоить модели с минимальным участием опсов.