Эксперты МТС, Сбер и Яндекс расскажут о Big Data Processing на HighLoad++ 2024

Привет, друзья!

На HighLoad++ 2024 затронем тему Big Data Processing! Совместно с нашими коллегами из МТС мы собрали ведущих инженеров из Яндекс, Сбер, билайн и, конечно, из МТС. Посмотрим на Big Data на новом витке эволюции.

Доклады и спикеры секции

От UDF к BROADCAST JOIN и обратно: история одной SPARK-оптимизации

Павел расскажет, как команда по обработке геоданных из Big Data МТС оптимизировала ETL на PySpark с более чем 10 миллиардами строк в день.

Оптимизация spark-приложений: от простого к сложному

Александр объяснит, как билайн сокращает ресурсы на обработку данных, оптимизируя Spark-приложения. В докладе он поделится секретами улучшения производительности — от репартицирования до эффективного запуска небольших Spark-приложений.Как построить Data Lineage на логах Apache Spark

Рамиль представит собственную систему Data Lineage для Apache Spark, созданную на базе открытого кода. Узнаем, как отслеживать движение данных от источника до потребителя, создавая прозрачность на каждом этапе.

Замена сотен Join’ов на один RT-процессинг с 1 млн запросов в секунду

Максим расскажет, как команда Яндекс построила систему для обработки миллиона запросов в секунду. Увидим, как переход от MapReduce к real-time-процессингу позволяет экономить ресурсы и получать данные мгновенно.

Спикеры будут рады видеть вас на секции Big Data Processing и ответят на любые ваши вопросы!