YTsaurus SPYT: помогаем планировщику Apache Spark быть ещё эффективнее
Доклад принят в программу конференции
Целевая аудитория
Тезисы
При обработке больших данных с помощью Apache Spark наиболее трудозатратным этапом считается Shuffle stage, когда вся информация активно перемещается. А возникает он в вашем плане, как только вы задумываетесь о группировке или джойнах. Но всегда ли он необходим? Нет! Дело в том, что зачастую Spark не знает, как эффективно использовать метаданные источника данных, поэтому строит универсальные способы исполнения.
В этом докладе я расскажу, как мы ускорили выполнение агрегаций и джойнов на отсортированных данных внутри YTsaurus. Для этого придется покопаться во внутренностях механизмов выполнения запросов, чтения данных и генерации планов исполнения.
Влюблённый в функциональное программирование дописыватель Apache Spark для YTsaurus. Работает внутри инфраструктуры Яндекса, встречается с распределенными системами каждый день.
Яндекс
Видео
Другие доклады секции
BigData и машинное обучение