Мнение Программного комитета о докладе
Глубокий (я бы сказал — глубинный) доклад для тех, кто интересуется стыком YTsaurus и Spark.
Доклад принят в программу конференции
Глубокий (я бы сказал — глубинный) доклад для тех, кто интересуется стыком YTsaurus и Spark.
При работе Apache Spark промежуточные shuffle-данные по умолчанию хранятся на локальных дисках executor-ов, что привязывает их жизненный цикл к конкретным процессам и хостам. Это создает уязвимости: сбой или вытеснение executor-а может привести к повторным вычислениям, замедлению работы и росту потребления ресурсов — особенно в долгоживущих и ресурсоемких приложениях.
В стандартном подходе для повышения надежности применяется External Shuffle Service, однако он по-прежнему опирается на локальное хранение и требует дополнительной поддержки со стороны инфраструктуры. Мы реализовали альтернативный подход — хранение shuffle-данных в распределенном хранилище YTsaurus. Такой способ повышает надежность, упрощает квотирование ресурсов, позволяет динамически реконфигурировать кластер и открывает возможность применения альтернативного push-based подхода к shuffle-операциям без необходимости изменений со стороны Spark. Реализация полностью прозрачна и может применяться для всех Spark-задач, запускаемых на платформе YTsaurus, вне зависимости от типа и объема нагрузки.
В докладе будут рассмотрены детали интеграции YTsaurus со Spark, а также представлены актуальные результаты оценки производительности этого решения на реальных задачах платформы.
Занимается разработкой подсистемы MapReduce платформы YTsaurus.
Разработчик с 15+ лет опыта. Раньше работал в компаниях Qiwi, CleverData и Leroy Merlin. Последние десять лет разрабатывает распределенные системы для хранения и обработки больших объемов неструктурированных данных. В настоящее время в Яндексе занимается интеграцией Apache Spark с YTsaurus.
Базы данных и системы хранения
Крупнейшая профессиональная конференция для разработчиков высоконагруженных систем
Крупнейшая профессиональная конференция для разработчиков высоконагруженных систем
Крупнейшая профессиональная конференция для разработчиков высоконагруженных систем
Варианты участия
Офлайн-участие
Стоимость конференции постоянно растет — чем ближе к мероприятию, тем дороже.
Текущая стоимость билета — 105000 ₽
Онлайн-участие
Все потоки с докладами (но не потоки с митапами) будут транслироваться нами онлайн.
Текущая стоимость билета — 52500 ₽
Корпоративное участие (от 10 билетов)
Для заказа от 10 билетов на очное или онлайн-участие, свяжитесь с нами по partners@ontico.ru.
Передумали покупать?
Расскажите, почему
Благодарим вас за ответ!
Видео, доступные к покупке
Видео AiConf 2024
26 и 27 сентября 2024
37500 ₽
Видео FrontendConf 2024
30 сентября 2024 и 1 октября 2024
37500 ₽
Видео Industrial++ 2024
21 и 22 октября 2024
37500 ₽
Видео TeamLead Conf++ 2024
27 и 28 ноября 2024
37500 ₽
Видео DevOpsConf 2025
7 и 8 апреля 2025
52500 ₽
Видео Knowledge Conf X 2025
2 июня 2025
21000 ₽
Видео Golang Conf X 2025
4 июня 2025
21000 ₽
Видео TechLead Conf X 2025
5 июня 2025
21000 ₽
Видео Saint HighLoad++ 2025
23 и 24 июня 2025
52500 ₽
Видео Saint TeamLead Conf 2025
26 и 27 июня 2025
52500 ₽
Видео TechFounders 2025
22 сентября 2025
21000 ₽
Видео Data Internals X 2025
23 сентября 2025
21000 ₽
Видео DevRelConf #9
24 сентября 2025
21000 ₽
Видео Industrial++ 2025
25 сентября 2025
21000 ₽
Видео AiConf X 2025
26 сентября 2025
21000 ₽