YTsaurus SPYT: помогаем планировщику Apache Spark быть ещё эффективнее

BigData и машинное обучение

Внутрянка решений

Доклад принят в программу конференции

Целевая аудитория

Создатели своих коннекторов послушают воспроизводимое ускорение чтения, а дата-инженеры смогут узнать, как Спарк интерпретирует и оптимизирует запросы.

Тезисы

При обработке больших данных с помощью Apache Spark наиболее трудозатратным этапом считается Shuffle stage, когда вся информация активно перемещается. А возникает он в вашем плане, как только вы задумываетесь о группировке или джойнах. Но всегда ли он необходим? Нет! Дело в том, что зачастую Spark не знает, как эффективно использовать метаданные источника данных, поэтому строит универсальные способы исполнения.

В этом докладе я расскажу, как мы ускорили выполнение агрегаций и джойнов на отсортированных данных внутри YTsaurus. Для этого придется покопаться во внутренностях механизмов выполнения запросов, чтения данных и генерации планов исполнения.

Влюблённый в функциональное программирование дописыватель Apache Spark для YTsaurus. Работает внутри инфраструктуры Яндекса, встречается с распределенными системами каждый день.

Яндекс

Яндекс — технологическая компания, которая создаёт инновационные продукты на основе машинного обучения и нейронных сетей. Команда талантливых математиков и программистов развивает самую популярную в России поисковую систему и более 85 пользовательских сервисов, которые помогают людям в повседневных заботах.

Видео