Как мы мигрируем со Spark на Polars, обрабатывая сотни ТБ в сутки

TechTalk

Оптимизация производительности

Архитектура данных, потоки данных, версионирование

Обработка данных

7 ноября, 12:10, Зал «Казан»

Google Outlook Apple

Доклад принят в программу конференции

Целевая аудитория

Инженеры данных, а также все, кому интересна сфера обработки больших данных.

Тезисы

Все презентации конференции

Инженеры данных в Navio управляют хранилищем на десятки петабайт, а размер данных, которые ежедневно проходят через наши пайплайны, исчисляется сотнями терабайтов в день. Это настоящий заповедник Big Data, и, казалось бы, в таких условиях лучшим инструментом для обработки данных будет Apache Spark. Но на практике все оказалось чуть сложней.

Я хотел бы поделиться историей, как Spark в нашей компании постепенно все больше заменяется Polars. Я подсвечу, какие аспекты Spark тормозили разработку, съедали кучу лишних ресурсов или просто выбешивали; и как с приходом Polars наши пайплайны стали быстрее, создание ETL-процессов — бодрее, а использование вычислительного кластера — экономней.

Георгий Попов

Navio

Весь профессиональный путь посвящен данным; успел примерить на себя роли и BI-аналитика, и аналитика данных, и инженера данных. На текущем этапе является инженером данных в компании Navio, находящейся на пике разработки технологий автономного вождения в России. Увлекается изучением иностранных языков и бегом на длинные дистанции.