Как мы мигрируем со Spark на Polars, обрабатывая сотни Тб в сутки
Доклад принят в программу конференции
Целевая аудитория
Тезисы
Инженеры данных в Navio управляют хранилищем на десятки петабайт, а размер данных, которые ежедневно проходят через наши пайплайны, исчисляется сотнями терабайт в день. Это настоящий заповедник Big Data, и, казалось бы, в таких условиях лучшим инструментом для обработки данных будет Apache Spark. Но на практике всё оказалось чуть сложней.
Я хотел бы поделиться историей, как Spark в нашей компании постепенно все больше заменяется Polars. Я подсвечу, какие аспекты Spark тормозили разработку, съедали кучу лишних ресурсов или просто выбешивали; и как с приходом Polars наши пайплайны стали быстрее, создание ETL-процессов бодрее, а использование вычислительного кластера экономней.
Весь профессиональный путь посвящен данным; успел примерить на себя роли и BI-аналитика, и аналитика данных, и инженера данных. На текущем этапе являюсь инженером данных в компании Navio, находящейся на пике разработки технологий автономного вождения в России. Увлекаюсь изучением иностранных языков и бегом на длинные дистанции.