Как мы построили большой ML-кластер на Kubernetes
Программный комитет ещё не принял решения по этому докладу
Целевая аудитория
Тезисы
Доклад о том как мы развернули k8s кластер, используемый для распределенного машинного обучения (> 100 нод H100 GPUs (1024GPUs, ~1Exaflop(FP16). В докладе подробно изложена архитектура калстера, топология сети, какие программные и аппаратные решения мы использовали и почему, с каким проблемами столкнулись в ходе внедрения и эксплуатации и как их решали.
Я инженер с более чем 20-летним опытом работы в IT-инфраструктуре. Начинал карьеру в телеком-провайдере, делал весь спектр работ от обжимки кабелей и прокладки по подъездам до настройки full-view на маршрутизаторах.
Затем почти десять лет проработал инженером UNIX в банковской сфере. В то время инфраструктура как дисциплина ещё не оформилась, поэтому в зоне ответственности было всё — от Linux и BSD до «тяжёлых» систем вроде AIX и Solaris, СХД и SAN. В 2009 году получил сертификацию по AIX.
После 2014-го года перешёл в Сбер, где в течение семи лет занимался Linux-инфраструктурой и развитием внутреннего облака. Позже работал в ВТБ, где разрабатывал автоматизацию, там же плотно работал с Kubernetes — с тех пор эта тема осталась в моём профессиональном фокусе.
Последние три года работают в Ozon старшим инженером в команде Kubernetes Ops. Участвую в развитии и поддержке инфраструктуры контейнерных платформ, автоматизации и масштабировании облачных решений компании
Видео
Другие доклады секции
Архитектура и масштабируемость