Крупнейшая профессиональная конференция для разработчиков высоконагруженных систем

Zero-cost I/O и fault tolerance в распределенном глубоком обучении

Нейронные сети, искусственный интеллект

Инфраструктура ML

Доклад принят в программу конференции

Целевая аудитория

DataScientist’ы — им будет полезно послушать, какой бывает инфраструктура. Разработчики инфраструктуры распределенного обучения нейронных сетей — те, кто может воплотить это в жизнь. Тут необходим сильный бэкендерский бэкграунд.

Тезисы

Поделимся, как мы в Яндексе сделали zero-cost-инфраструктуру распределенного обучения поверх распределенной транзакционной файловой системы:
1. Никаких модификаций однопоточного однопроцессного кода обучения на Python — экономим время DataScientist’а. Не нужно быть бэкендером-профессионалом, чтобы писать распределенный код обучения.
2. Никакого дополнительного оверхеда по производительности под Python GIL при переходе к распределенному обучению — улучшаем утилизацию железа.
3. Автоматическое масштабирование обучений с 1 GPU на сотни видеокарт, I/O на чтение/запись в десятки GB/s — улучшаем общую емкость систем обучения.

Разработчик ML-инфраструктуры рекомендательных систем. Занимался как разработкой архитектур и внедрением нейронных сетей, так и разработкой фреймворков их обучения.

Яндекс

Яндекс — технологическая компания, которая создаёт инновационные продукты на основе машинного обучения и нейронных сетей. Команда талантливых математиков и программистов развивает самую популярную в России поисковую систему и более 85 пользовательских сервисов, которые помогают людям в повседневных заботах.

Видео

Другие доклады секции

Нейронные сети, искусственный интеллект