YTsaurus SPYT: помогаем планировщику Apache Spark быть ещё эффективнее

BigData и машинное обучение

Внутрянка решений

Доклад принят в программу конференции

Целевая аудитория

Создатели своих коннекторов послушают воспроизводимое ускорение чтения, а дата-инженеры смогут узнать, как Спарк интерпретирует и оптимизирует запросы.

Тезисы

При обработке больших данных с помощью Apache Spark наиболее трудозатратным этапом считается Shuffle stage, когда вся информация активно перемещается. А возникает он в вашем плане, как только вы задумываетесь о группировке или джойнах. Но всегда ли он необходим? Нет! Дело в том, что зачастую Spark не знает, как эффективно использовать метаданные источника данных, поэтому строит универсальные способы исполнения.

В этом докладе я расскажу, как мы ускорили выполнение агрегаций и джойнов на отсортированных данных внутри YTsaurus. Для этого придется покопаться во внутренностях механизмов выполнения запросов, чтения данных и генерации планов исполнения.

Влюблённый в функциональное программирование, дописыватель Apache Spark для YTsaurus.
Работает внутри инфраструктуры Яндекса, встречается с распределенными системами каждый день.

Яндекс

Яндекс — технологическая компания, создающая инновационные продукты на основе машинного обучения и нейронных сетей. Команда талантливых математиков и программистов разрабатывает одну из самых популярных поисковых систем и другие сервисы, которые помогают людям в их повседневной жизни. Среди его направлений деятельности: поиск, реклама, онлайн-заказ такси и еды, электронная коммерция, видео/аудио и потоковое вещание, автономное вождение и облачные сервисы. Яндекс активно развивает проекты с открытым исходным кодом, такие как CatBoost, DivKit, YDB, userver, YaLM, YTsaurus.

Видео