Как мы построили большой ML-кластер на Kubernetes

Архитектура и масштабируемость

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

Инфраструктурные инженеры, работащие с HPC кластерами.

Тезисы

Доклад о том как мы развернули k8s кластер, используемый для распределенного машинного обучения (> 100 нод H100 GPUs (1024GPUs, ~1Exaflop(FP16). В докладе подробно изложена архитектура калстера, топология сети, какие программные и аппаратные решения мы использовали и почему, с каким проблемами столкнулись в ходе внедрения и эксплуатации и как их решали.

Юмашев Иван

Ozon tech

Я инженер с более чем 20-летним опытом работы в IT-инфраструктуре. Начинал карьеру в телеком-провайдере, делал весь спектр работ от обжимки кабелей и прокладки по подъездам до настройки full-view на маршрутизаторах.

Затем почти десять лет проработал инженером UNIX в банковской сфере. В то время инфраструктура как дисциплина ещё не оформилась, поэтому в зоне ответственности было всё — от Linux и BSD до «тяжёлых» систем вроде AIX и Solaris, СХД и SAN. В 2009 году получил сертификацию по AIX.

После 2014-го года перешёл в Сбер, где в течение семи лет занимался Linux-инфраструктурой и развитием внутреннего облака. Позже работал в ВТБ, где разрабатывал автоматизацию, там же плотно работал с Kubernetes — с тех пор эта тема осталась в моём профессиональном фокусе.

Последние три года работают в Ozon старшим инженером в команде Kubernetes Ops. Участвую в развитии и поддержке инфраструктуры контейнерных платформ, автоматизации и масштабировании облачных решений компании

Видео

Другие доклады секции

Архитектура и масштабируемость

Спиливание устаревших возможностей без нарушения обратной совместимости

Лев Плинер

Контур

Python в Highload-ипотеке: От монолита к микросервисам на стероидах (и обратно к разумному балансу)

Иван Семин

ООО «Домклик»

Вынос функционала из монолита

Алексей Лосев

Wildberries & Russ

Алгоритмы без цели: устойчивость и эмерджентное поведение в AI и распределённых системах

Михаил Давидович

Альфа-банк

Как мы делали крупнейший инфраструктурный проект в истории компании

Юрий Власов

CDEK

Надежная и быстрая архитектура поиска лекарств в Яндекс Еде

Сергей Синягин

Яндекс Еда

Я слышал, ты любишь оркестраторы. Поэтому мы построили оркестратор для оркестратора - чтобы управлять тысячами кластеров, пока они управляют твоими подами

Артем Гринберг

Timeweb Cloud

Архитектурный дискуссионный клуб

Наталья Макарова

CDEK

Инфраструктура как экономика: выживание SaaS-стартапа без big-tech бюджета, но с нагрузкой как у банка

Андрей Ивахненко

Антиплагиат

Секунда решает все

Юлия Лебедева

Сбер

Счастливая жизнь с вебсокетом

Павел Корозевцев

Яндекс

Использование пакета weak в системе кеширования

Артур Рощупкин

Lamoda

AI Flow вместо хаоса: практическая методология построения мультиагентных систем

Дмитриев Игорь Николаевич

Wildberiies & Russ

История развития телеметрии в Контуре с 2013 по 2026 с миграцией на OTel

Денисов Александр Александрович

СКБ Контур

Запуск технологического R&D: как мыслить нестандартно для поиска решений

Евгений Ситников

СберМобайл

Достигаем консистентности в распределенных системах

Максим Рауба

Ozon

SELECT * FROM hell: Как aнализ Python кода спас нашу валидацию 100 000 сетевых устройств

Даниил Парамонов

Hadal Project

Убить нельзя оставить. Что делать с Elastic в большом екоме

Гимранова Карина

Магнит OMNI

Умная VS глупая нагрузка. Нюансы порождения первой и уничтожения второй.

Михаил Колосов

Газпромбанк.Тех

Architecture as Code: от антипаттернов описания к рабочему инструменту

Иван Садовой

Туту

Онлайн светофоры в Яндекс Картах

Игорь Ретинский

Яндекс Карты

Обеспечение согласованности данных в распределённых системах: сравнение подходов Сага и Two-phase commit

Борисова Дарья Игоревна

ПСБ

Architecture of a Instant Payment System (by Brazil)

Pablo Aguilar

dry-python

Как сделать правильную реализацию Delayed events

Александр Митин

ИТ-Холдинг Т1

Эволюция товароцентричности в Яндекс.Еде

Михаил Ковалев

Яндекс

Как мы настроили Elasticsearch на 35 тыс+ RPS и улучшили бизнес-процессы

Владимир Панчук

АО Альфа-Банк

Мультимодальный RAG для чертежей и ГОСТов: как подружить NebulaGraph, Qdrant и Nemotron-Mamba в закрытом контуре

Андрей Носов

Raft

Fast & Furious Media Processing: как мы приручили стейт машину

Илья Григорьев

Яндекс 360

Динамическая адаптация балансирования нагрузки на сетевом уровне к метрикам вычислительных сред

Павел Михайлик

Инфосистемы Джет

Антикейсы в масштабировании инфраструктуры

Максим Яковлев

Timeweb Cloud

BaobabRT: Как Яндекс Маркет навел порядок и ускорил доставку пользовательских сигналов

Олег Титов

Яндекс Маркет

HotCache на Tarantool: real-time пайплайн от Kafka до in-memory хранения с управляемым охлаждением данных

Михаил Давидович

Альфа-банк

Ключ к масштабу: партиции, хеши и маршрутизация

Яговцев Сергей Евгеньевич

kaspersky

Из кинотеатра в ресторан: как КИОН мигрировал с вендорского решения на 40 000 RPS

Иван Фефилов

MTC Web Services, КИОН

Waterbase: Эволюция высоконагруженного сервиса управления конфигурациями и A/B-тестированием

Юрий Минченко-Первак

KION, MTS Web Services

Адаптивная гео-балансировка на сетевом уровне с учетом метрик вычислительных сред (не DNS)

Павел Михайлик

Инфосистемы Джет

Как отселить рекламу на свои легкие индексы и развязать поиску руки

Эмиль Рахимов

2ГИС

Pragmatic Event Driven Architecture

Иван Базалий

ati.su

Realtime-балансировка low-latency сервисов

Константин Хмелевский

Яндекс

Архитектурный хаос как новое узкое место. Как три AI-агента в ArInA стали нашим первым антидотом

Ангелина Костина

МТС Web Services

Kubernetes: координация операторов для предоставления PaaS

Александр Князев

РСХБ.цифра

Архитектура, которая выдерживает 35 000 магазинов в real-time. И работает...

Алексей Соболеков

Magnit Tech

RecSys платформа

Кузнецов Сергей

MWS

Итак, вы решили сделать аудит: практическое руководство по разбору боевой высоконагруженной системы

Павел Лукьянов

Независимый эксперт

«Зачем вашему фаерволу турбонаддув?»

Павел Молодан

UserGate

Отказоустойчивость как инструмент для оптимизации инфраструктурных расходов

Сергей Лавров

Авиасейлс

Как мы строили промодвижок на Go. От одного промокода, до сотен миллионов персональных предложений

Фоломкин Александр

Magnit TECH

80 кластеров и один новый каждую неделю. Как мы спасали Яндекс Трекер от роста.

Дима Куприк

Яндекс

Миллиарды транзакций в сутки: Как мы построили высоконагруженный Accounting Engine для экосистемы Сбера

Жегулин Денис Сергеевич

Сбер

MCP в enterprise: контроль, политики и масштабирование без хаоса

Михаил Давидович

Альфа-банк

Расширяя возможности Kubernetes: от оркестратора к платформе

Артемий Афанасьев

Flant

Kubernetes для разработчиков глазами разработчика

Александр Базарнов

ПочтаБанк

Отказоустойчивый антифрод с гибкими настройками под нагрузкой до 1000 tps

Денис Зайчук

Единый ЦУПИС