Построение HPC/GPU-кластеров для машинного обучения
Доклад принят в программу конференции
Целевая аудитория
Тезисы
Яндекс в 2021 году запустил три HPC/GPU-кластера для машинного обучения, которые стали самыми мощными суперкомпьютерами в России. Мой рассказ будет о том, с какими сложностями и неожиданностями мы столкнулись на этом пути.
Из этого доклада вы узнаете:
* о революции трансформеров;
* о том, что такое современный HPC/GPU-кластер, зачем коммерческим компаниям понадобились суперкомпьютеры;
* на каком стеке технологий они строятся и почему;
* почему HPC — это сложно, а традиционные подходы часто не работают;
* как вообще устроен процесс попадания в топ-500, и как, оптимизируя производительность для попадания в рейтинг, мы нашли проблемы, решив которые, мы ускорили наше машинное обучение.
Специалист по Ядру Линукс, основная область интересов: FS,RDMA, Infiniband.
Яндекс
Видео
Другие доклады секции
Нейронные сети, искусственный интеллект