Как мы мигрируем со Spark на Polars, обрабатывая сотни ТБ в сутки

TechTalk

Оптимизация производительности
Архитектура данных, потоки данных, версионирование
Обработка данных

Доклад принят в программу конференции

Целевая аудитория

Инженеры данных, а также все, кому интересна сфера обработки больших данных.

Тезисы

Инженеры данных в Navio управляют хранилищем на десятки петабайт, а размер данных, которые ежедневно проходят через наши пайплайны, исчисляется сотнями терабайтов в день. Это настоящий заповедник Big Data, и, казалось бы, в таких условиях лучшим инструментом для обработки данных будет Apache Spark. Но на практике все оказалось чуть сложней.

Я хотел бы поделиться историей, как Spark в нашей компании постепенно все больше заменяется Polars. Я подсвечу, какие аспекты Spark тормозили разработку, съедали кучу лишних ресурсов или просто выбешивали; и как с приходом Polars наши пайплайны стали быстрее, создание ETL-процессов — бодрее, а использование вычислительного кластера — экономней.

Весь профессиональный путь посвящен данным; успел примерить на себя роли и BI-аналитика, и аналитика данных, и инженера данных. На текущем этапе является инженером данных в компании Navio, находящейся на пике разработки технологий автономного вождения в России. Увлекается изучением иностранных языков и бегом на длинные дистанции.

Видео