Конференция завершена. Ждем вас на HighLoad++ в следующий раз!

Построение HPC/GPU-кластеров для машинного обучения

Нейронные сети, искусственный интеллект

BigData / ML

Отказоустойчивость
Оптимизация производительности
Распределенные системы
Machine Learning
Оптимизация
Инфраструктура
Сеть
Расширение кругозора
Типовые ошибки
Фиксация знаний
Обзор

Доклад принят в программу конференции

Целевая аудитория

Пользователи, обучающие ML/DL-модели, администраторы инфраструктуры.

Тезисы

Яндекс в 2021 году запустил три HPC/GPU-кластера для машинного обучения, которые стали самыми мощными суперкомпьютерами в России. Мой рассказ будет о том, с какими сложностями и неожиданностями мы столкнулись на этом пути.

Из этого доклада вы узнаете:
* о революции трансформеров;
* о том, что такое современный HPC/GPU-кластер, зачем коммерческим компаниям понадобились суперкомпьютеры;
* на каком стеке технологий они строятся и почему;
* почему HPC — это сложно, а традиционные подходы часто не работают;
* как вообще устроен процесс попадания в топ-500, и как, оптимизируя производительность для попадания в рейтинг, мы нашли проблемы, решив которые, мы ускорили наше машинное обучение.

Специалист по Ядру Линукс, основная область интересов: FS,RDMA, Infiniband.

Яндекс

Яндекс — технологическая компания, которая создаёт инновационные продукты на основе машинного обучения и нейронных сетей. Команда талантливых математиков и программистов развивает самую популярную в России поисковую систему и более 85 пользовательских сервисов, которые помогают людям в повседневных заботах. Основные бизнес-направления: поиск и электронная коммерция, сервисы объявлений, медиасервисы, онлайн-заказ такси и еды, беспилотные автомобили, продукты для рекламодателей и владельцев бизнеса. Яндекс также активно развивает проекты с открытым исходным кодом, например, библиотеку машинного обучения CatBoost.

Видео