Nvidia Triton Inference Server: строим production ML без разработчиков
Доклад принят в программу конференции
Целевая аудитория
Тезисы
В докладе я поделюсь опытом разработки и внедрения инференс-платформы на базе Triton Inference Server и Kubernetes. Вы узнаете, как наше решение позволило увеличить пропускную способность инференса в 10 раз. За счет чего это произошло?
Мы реализовали динамический батчинг запросов и конвертацию разных форматов моделей в tensorrt.
Какие у нас были требования к системе? Необходимо было сократить время деплоя моделей до одного дня без даунтайма, обеспечить устойчивость к высоким нагрузкам и готовые средства observability.
Поделюсь, как мы реализовали автоскейлинг для отказоустойчивости при высоких нагрузках. Таким образом, получили возможность поднимать новую ноду с GPU, сохраняя задержку запросов до выбранного отсечения (например 1 секунда).
Какие профиты мы еще получили? Теперь дата саентисты могут сами деплоить модели с минимальным участием опсов.
Devops инженер в облаке, пришёл из автоматизации производств. Видел и ломал настоящие конвейеры. Сейчас активно занимаюсь ML инфраструктурой. Последнее время меня называют StandOps.
Пишу в телеграм канал @easy_dev_ops
Selectel
Видео
Другие доклады секции
BigData и инфраструктура машинного обучения (data engineering)