Эффективное использование ресурсов GPU для решения ML задач
Поделимся опытом исследования и использования технологий шеринга GPU (Nvidia). В русскоязычном сегменте мы не смогли найти ни одного оригинального материала — в основном переводы англоязычных статей. В итоге наработали собственную экспертизу и планируем ею делиться.
Готовы проконсультировать:
— по использованию технологий шеринга GPU (Nvidia) для эффективного использования ресурсов на видеокартах A100, A30, TeslaT4 в Kubernetes. Можем подробнее рассказать про Multi-Instance GPU, Timeslicing, Multi-Process Service (MPS)
— по разработке MLOps платформы на базе open source ML-инструментов
Эксперт №1
Антон Алексеев
Спициализируется на разработке образов виртуальных машин с ML инструментами для маркетплейса облачного провайдера (bash, terraform, packer, gitlab ci/cd). Разработке облачного файлового хранилища на базе протоколов SMB, NFS (ansible, terraform, gitlab ci/cd), разработка MLOps платформы на базе Kubenetes (clearml, jupyterhub, gitea, keycloak, gitlab CI/CD, terrafom, Helm). Research and development направление в сфере MLOps.
Ссылки:
1. https://habr.com/ru/companies/selectel/articles/756934
2. https://habr.com/ru/companies/selectel/articles/748544
3. https://habr.com/ru/companies/selectel/articles/776132/
Эксперт №2
Ефим Головин
Более 7 лет работы в IT (c 2017 года развиваюсь в области Data Science).Написал пару статей на Хабр по полезным источникам для изучения и вхождения в сферу Data Science. В Selectel занимается разработкой образов виртуальных машин с ML инструментами для маркетплейса облачного провайдера (bash, terraform, packer, gitlab ci/cd), разработкой MLOps платформы на базе Kubenetes (clearml, jupyterhub, gitea, keycloak, gitlab CI/CD, terrafom, Helm). Research and development направление в сфере MLOps.В последнее время сконцентрирован в основном изучении тематики больших языковых моделей
О чем спросить:
1. Развертывание ML-инструментов в Kubernetes (ClearML/Jupyter Hub/KServe/Seldon Core/etc.);
2. Написание кастомных helm-чартов;
3. Проведение регулярных демо платформы, написание руководств по использованию, примеров etc.;
4. Использование технологий типа MIG в связке с ClearML/Jupyter Hub;
5. Сборка/отладка кастомных рабочих окружений по требованиям заказчика;
6. Тематика больших языковых моделей
Эксперты
Антон Алексеев
DevOps-инженер
Ефим Головин
MLOps-инженер