Крупнейшая профессиональная конференция для разработчиков высоконагруженных систем 2022

Построение и эксплуатация инфраструктуры для распределенного машинного обучения

Начавшаяся несколько лет назад революция трасформеров в машинном обучении потребовала огромных вычислительных мощностей и перехода на распределенные алгоритмы. Это сильно усложнило разработку и обучение больших моделей. Из-за чего огромное количество GPU-ресурсов могут использоваться неэффективно, либо простаивать во время отладки. В экспертной зоне будем делиться опытом о том, как упростить разработку, отладку, обучение таких моделей, повысить утилизацию железа и тем самым снизить стоимость обучения моделей. Как инфраструктура кластеров может помочь в отладке задач машинного обучения. Участники экспертной зоны – специалисты по машинному обучению и DeepLearning и эксперты эксплуатации кластеров для машинного обучения, топ-менеджеры.

Эксперты

Дмитрий Монахов

Linux kernel teamlead Яндекс

Общее расписание на два дня

10:40 – 12:00

Распределенные высоконагруженные системы хранения и обработки данных. Yandex Database

14:00 – 15:00

CatBoost

15:00 – 16:00

Машинное обучение в области рекомендательных систем

16:00 – 17:00

Application Platform: Containers & Serverless

17:00 – 18:00

Построение и эксплуатация инфраструктуры для распределенного машинного обучения

Задать вопрос эксперту

Место проведения – стенд Яндекс