Zero-cost I/O и fault tolerance в распределенном глубоком обучении
Доклад принят в программу конференции
Целевая аудитория
Тезисы
Поделимся, как мы в Яндексе сделали zero-cost-инфраструктуру распределенного обучения поверх распределенной транзакционной файловой системы:
1. Никаких модификаций однопоточного однопроцессного кода обучения на Python — экономим время DataScientist’а. Не нужно быть бэкендером-профессионалом, чтобы писать распределенный код обучения.
2. Никакого дополнительного оверхеда по производительности под Python GIL при переходе к распределенному обучению — улучшаем утилизацию железа.
3. Автоматическое масштабирование обучений с 1 GPU на сотни видеокарт, I/O на чтение/запись в десятки GB/s — улучшаем общую емкость систем обучения.
Разработчик ML-инфраструктуры рекомендательных систем. Занимался как разработкой архитектур и внедрением нейронных сетей, так и разработкой фреймворков их обучения.
Яндекс
Видео
Другие доклады секции
Нейронные сети, искусственный интеллект