Крупнейшая профессиональная конференция для разработчиков высоконагруженных систем

Nvidia Triton Inference Server: строим production ML без разработчиков

BigData и инфраструктура машинного обучения (data engineering)

ML

Доклад принят в программу конференции

Целевая аудитория

Доклад будет полезен для лидов, техлидов, СТО, инженеров, работающих с ML моделями, предоставляя им практические решения и стратегии для эффективного управления и развертывания моделей в продакшн среде с использование опенсорс сервисов. Решение может повторить каждый, обладая необходимой для этого инфраструктурой.

Тезисы

В докладе я поделюсь опытом разработки и внедрения инференс-платформы на базе Triton Inference Server и Kubernetes. Вы узнаете, как наше решение позволило увеличить пропускную способность инференса в 10 раз. За счет чего это произошло?
Мы реализовали динамический батчинг запросов и конвертацию разных форматов моделей в tensorrt.

Какие у нас были требования к системе? Необходимо было сократить время деплоя моделей до одного дня без даунтайма, обеспечить устойчивость к высоким нагрузкам и готовые средства observability.
Поделюсь, как мы реализовали автоскейлинг для отказоустойчивости при высоких нагрузках. Таким образом, получили возможность поднимать новую ноду с GPU, сохраняя задержку запросов до выбранного отсечения (например 1 секунда).

Какие профиты мы еще получили? Теперь дата саентисты могут сами деплоить модели с минимальным участием опсов.

Devops инженер в облаке, пришёл из автоматизации производств. Видел и ломал настоящие конвейеры. Сейчас активно занимаюсь ML инфраструктурой. Последнее время меня называют StandOps.

Пишу в телеграм канал @easy_dev_ops

Selectel

Selectel — крупнейший независимый провайдер сервисов IT-инфраструктуры в России. Компания занимает лидирующие позиции на рынке выделенных серверов и приватных облаков, управляет облачной платформой собственной разработки и входит в топ-3 крупнейших поставщиков IaaS в России.

Видео

Другие доклады секции

BigData и инфраструктура машинного обучения (data engineering)