Как мы построили большой ML-кластер на Kubernetes

Архитектура и масштабируемость

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

Инфраструктурные инженеры, работащие с HPC кластерами.

Тезисы

Доклад о том как мы развернули k8s кластер, используемый для распределенного машинного обучения (> 100 нод H100 GPUs (1024GPUs, ~1Exaflop(FP16). В докладе подробно изложена архитектура калстера, топология сети, какие программные и аппаратные решения мы использовали и почему, с каким проблемами столкнулись в ходе внедрения и эксплуатации и как их решали.

Я инженер с более чем 20-летним опытом работы в IT-инфраструктуре. Начинал карьеру в телеком-провайдере, делал весь спектр работ от обжимки кабелей и прокладки по подъездам до настройки full-view на маршрутизаторах.

Затем почти десять лет проработал инженером UNIX в банковской сфере. В то время инфраструктура как дисциплина ещё не оформилась, поэтому в зоне ответственности было всё — от Linux и BSD до «тяжёлых» систем вроде AIX и Solaris, СХД и SAN. В 2009 году получил сертификацию по AIX.

После 2014-го года перешёл в Сбер, где в течение семи лет занимался Linux-инфраструктурой и развитием внутреннего облака. Позже работал в ВТБ, где разрабатывал автоматизацию, там же плотно работал с Kubernetes — с тех пор эта тема осталась в моём профессиональном фокусе.

Последние три года работают в Ozon старшим инженером в команде Kubernetes Ops. Участвую в развитии и поддержке инфраструктуры контейнерных платформ, автоматизации и масштабировании облачных решений компании

Видео

Другие доклады секции

Архитектура и масштабируемость