Можно ли построить свой HPC-кластер и что для этого требуется?
Мы взяли несколько узлов, в которые можно установить нужное оборудование: видеокарты, сетевые карты, поддерживающие RDMА. Установили на них Astra и стали разбираться с нюансами. Их оказалось немало.
Приходите на доклад, чтобы увидеть и разобрать:
* Почему надо обязательно использовать специализированные GPU-платформы — рядовые серверные системы нам не подойдут.
* NCCL, MPI, UCX — зачем они нужны для параллельных вычислений.
* Как понять, что PFC и ECN работают — или почему tcpdump не ловит траффик.
* Как производительность HPC можно измерить.
* И что еще придется крутить, чтобы увидеть цифры, приближенные к скорости, написанной в спецификациях сетевой карты.