Использование современных сетей и железа для deep learn

Резерв

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Суперкомпьютеры уже рядом — их можно построить своими руками. На докладе Борис объяснит, как современные сети помогают собирать ML-кластеры, повышать их производительность и надежность. Эти практики пригодятся в любой высоконагруженной системе.

Целевая аудитория

Архитекторы, разработчики.

Тезисы

Все презентации конференции

Можно ли построить свой HPC-кластер и что для этого требуется?

Мы взяли несколько узлов, в которые можно установить нужное оборудование: видеокарты, сетевые карты, поддерживающие RDMА. Установили на них Astra и стали разбираться с нюансами. Их оказалось немало.

Приходите на доклад, чтобы увидеть и разобрать:
* Почему надо обязательно использовать специализированные GPU-платформы — рядовые серверные системы нам не подойдут.
* NCCL, MPI, UCX — зачем они нужны для параллельных вычислений.
* Как понять, что PFC и ECN работают — или почему tcpdump не ловит траффик.
* Как производительность HPC можно измерить.
* И что еще придется крутить, чтобы увидеть цифры, приближенные к скорости, написанной в спецификациях сетевой карты.

Борис Корзун

Скала^р (продукт Группы Rubytech)

20 лет в IT. Прошел путь от системного администратора до SRE. В настоящее время системный инженер отдела разработки аппаратного обеспечения в Скала-р.