Как устроен Multicloud в ML платформе
Программный комитет ещё не принял решения по этому докладу
Целевая аудитория
Тезисы
ML платформа Т-банка имеет более 5ти production регионов. при этом, до реализации функционала, более 90% от запуска всех нагрузок пользователей приземлялся в регион в один регион по умолчанию. чтобы это изменить юзерам надо было явно выбрать нужный регион руками. это вызывало ряд проблем:
- в случае отказа региона по-умолчанию будет колоссальный аффект на пользователей платформы и все вышестоящие услуги
- в общем случае классическому ML/DS-инженеру все равно в каком регионе запускаться. для них важно минимизировать время простаивания задачи в очереди на запуск и доступность услуг. при этом самостоятельный способ выбора региона со стороны пользователей не всегда эффективен
В докладе будет рассказано что мы сделали для того, чтобы решить эффективно решить проблемы масштабируемости, скорости запуска и надежности
Руководитель группы разработки ML-core jobs, лидер профессии Go, куратор Go-курса для внешних студентов и сотрудников T-Банка. Закончил МГТУ им. Баумана.
Видео
Другие доклады секции
Platform Engineering