Построение и эксплуатация инфраструктуры для распределенного машинного обучения
Начавшаяся несколько лет назад революция трасформеров в машинном обучении потребовала огромных вычислительных мощностей и перехода на распределенные алгоритмы. Это сильно усложнило разработку и обучение больших моделей. Из-за чего огромное количество GPU-ресурсов могут использоваться неэффективно, либо простаивать во время отладки. В экспертной зоне будем делиться опытом о том, как упростить разработку, отладку, обучение таких моделей, повысить утилизацию железа и тем самым снизить стоимость обучения моделей. Как инфраструктура кластеров может помочь в отладке задач машинного обучения. Участники экспертной зоны – специалисты по машинному обучению и DeepLearning и эксперты эксплуатации кластеров для машинного обучения, топ-менеджеры.
Эксперты
Дмитрий Монахов
Linux kernel teamlead Яндекс
Общее расписание на два дня
Место проведения – стенд Яндекс