circle HighLoad++ Foundation

Крупнейшая профессиональная конференция для разработчиков высоконагруженных систем

Назад к списку экспертов

Построение и эксплуатация инфраструктуры для распределенного машинного обучения

Начавшаяся несколько лет назад революция трасформеров в машинном обучении потребовала огромных вычислительных мощностей и перехода на распределенные алгоритмы. Это сильно усложнило разработку и обучение больших моделей. Из-за чего огромное количество GPU-ресурсов могут использоваться неэффективно, либо простаивать во время отладки. В экспертной зоне будем делиться опытом о том, как упростить разработку, отладку, обучение таких моделей, повысить утилизацию железа и тем самым снизить стоимость обучения моделей. Как инфраструктура кластеров может помочь в отладке задач машинного обучения. Участники экспертной зоны – специалисты по машинному обучению и DeepLearning и эксперты эксплуатации кластеров для машинного обучения, топ-менеджеры.

Эксперты

Дмитрий Монахов

Дмитрий Монахов

Linux kernel teamlead Яндекс

Общее расписание на два дня

10:40 – 12:00
Распределенные высоконагруженные системы хранения и обработки данных. Yandex Database
14:00 – 15:00
CatBoost
15:00 – 16:00
Машинное обучение в области рекомендательных систем
16:00 – 17:00
Application Platform: Containers & Serverless
17:00 – 18:00
Построение и эксплуатация инфраструктуры для распределенного машинного обучения

Место проведения – стенд Яндекс