Разработка универсального API для работы с технологиями распределенных вычислений

BigData и машинное обучение

Python
Асинхронное программирование, реактивное программирование
Разработка библиотек, включая open source библиотеки
ETL
Обработка данных

Доклад отклонён

Мнение Программного комитета о докладе

Целевая аудитория

Python-разработчики, использующие (или желающие начать использовать) распределенные фреймворки в своих приложениях. Пользователи библиотек обработки данных (pandas, Dask).

Тезисы

В проекте Modin (распределенный pandas) мы поддерживаем ряд программных технологий распределения вычислений в бэкэндах. Появилась проблема поддержки фронтенд функциональности сразу на всех бэкэндах и необходимость добавления поддержки MPI технологии.
Мы разработали универсальный python API для работы с фрэймворками Ray, Dask, MPI и стандартным Python multiprocessing, который вылился в отдельный проект Unidist.
В докладе познакомимся с распределенной структурой данных Modin DataFrame и принципах её параллельной обработки. Выясним, как ряд фрэймворков для распараллеливания вычислений унифицирован в библиотеке Unidist. Рассмотрим реализацию task-based подхода на технологии MPI.

AI Frameworks Engineer

Intel

Центральный игрок в сфере микроэлектроники и вычислительной техники

Видео