Как устроен Multicloud в ML платформе

Platform Engineering

Бэкенд
Machine Learning

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

Ml Ops, SRE, Team Leads

Тезисы

ML платформа Т-банка имеет более 5ти production регионов. при этом, до реализации функционала, более 90% от запуска всех нагрузок пользователей приземлялся в регион в один регион по умолчанию. чтобы это изменить юзерам надо было явно выбрать нужный регион руками. это вызывало ряд проблем:

- в случае отказа региона по-умолчанию будет колоссальный аффект на пользователей платформы и все вышестоящие услуги

- в общем случае классическому ML/DS-инженеру все равно в каком регионе запускаться. для них важно минимизировать время простаивания задачи в очереди на запуск и доступность услуг. при этом самостоятельный способ выбора региона со стороны пользователей не всегда эффективен

В докладе будет рассказано что мы сделали для того, чтобы решить эффективно решить проблемы масштабируемости, скорости запуска и надежности

Руководитель группы разработки ML-core jobs, лидер профессии Go, куратор Go-курса для внешних студентов и сотрудников T-Банка. Закончил МГТУ им. Баумана.

Видео