Конференция завершена. Ждем вас на HighLoad++ в следующий раз!

Построение HPC/GPU-кластеров для машинного обучения

BigData / ML

Доклад принят в программу конференции

Тезисы

Яндекс в 2021 году запустил три HPC/GPU-кластера для машинного обучения, которые стали самыми мощными суперкомпьютерами в России. Мой рассказ будет о том, с какими сложностями и неожиданностями мы столкнулись на этом пути.

Из этого доклада вы узнаете:
* о революции трансформеров;
* о том, что такое современный HPC/GPU-кластер, зачем коммерческим компаниям понадобились суперкомпьютеры;
* на каком стеке технологий они строятся и почему;
* почему HPC — это сложно, а традиционные подходы часто не работают;
* как вообще устроен процесс попадания в топ-500, и как, оптимизируя производительность для попадания в рейтинг, мы нашли проблемы, решив которые, мы ускорили наше машинное обучение.

Специалист по Ядру Линукс, основная область интересов: FS,RDMA, Infiniband.

Яндекс

Видео