Как мы мигрируем со Spark на Polars, обрабатывая сотни Тб в сутки

TechTalk

Оптимизация производительности
Архитектура данных, потоки данных, версионирование
Обработка данных

Доклад принят в программу конференции

Целевая аудитория

Инженеры данных, а также все, кому интересна сфера обработки больших данных

Тезисы

Инженеры данных в Navio управляют хранилищем на десятки петабайт, а размер данных, которые ежедневно проходят через наши пайплайны, исчисляется сотнями терабайт в день. Это настоящий заповедник Big Data, и, казалось бы, в таких условиях лучшим инструментом для обработки данных будет Apache Spark. Но на практике всё оказалось чуть сложней.

Я хотел бы поделиться историей, как Spark в нашей компании постепенно все больше заменяется Polars. Я подсвечу, какие аспекты Spark тормозили разработку, съедали кучу лишних ресурсов или просто выбешивали; и как с приходом Polars наши пайплайны стали быстрее, создание ETL-процессов бодрее, а использование вычислительного кластера экономней.

Весь профессиональный путь посвящен данным; успел примерить на себя роли и BI-аналитика, и аналитика данных, и инженера данных. На текущем этапе являюсь инженером данных в компании Navio, находящейся на пике разработки технологий автономного вождения в России. Увлекаюсь изучением иностранных языков и бегом на длинные дистанции.

Видео