Spark in K8s для десятков DS-команд

BigData и инфраструктура машинного обучения (data engineering)

Доклад принят в программу конференции

Мнение Программного комитета о докладе

В противопостоянии «Kubernetes против Apache Hadoop YARN» Арсен из Сбера всегда занимает сторону Kubernetes. В докладе он расскажет, как правильно запихнуть Spark в кубы, настроить весь необходимый для data science зоопарк и (почти) безболезненно манипулировать терабайтными датасетами.

Целевая аудитория

Data Science, DevOps, SRE, MLOps-специалисты.

Тезисы

Уже более двух лет создаем MLOps-платформу для создания рекомендательных сценариев.

В докладе будет рассказано:
* как реализовали работу со Spark-нагрузками на RecSys-платформе;
* какие были проблемы со Spark и почему пришли к текущему решению:
* как использовать Spark в Multi-tenant-архитектуре;
* также поговорим о проблемах использования Spark in K8s.

Развивает MLOps-платформу в Сбере в роли MLOps-разработчика в коммите в DS SDK. Начинал карьеру как дата-аналитик, позднее был BI-разработчиком и дата-инженером.

Сбер

Сбер — это современный стек технологий, драйвовые проекты и команда единомышленников. У них около 3 000 продуктовых команд и огромное профессиональное IT-сообщество. Работают над созданием удобных онлайн-сервисов в самых разных сферах.

Видео

Другие доклады секции

BigData и инфраструктура машинного обучения (data engineering)