Мнение Программного комитета о докладе
Глубокий (я бы сказал — глубинный) доклад для тех, кто интересуется стыком YTsaurus и Spark.
Доклад принят в программу конференции
Глубокий (я бы сказал — глубинный) доклад для тех, кто интересуется стыком YTsaurus и Spark.
При работе Apache Spark промежуточные shuffle-данные по умолчанию хранятся на локальных дисках executor-ов, что привязывает их жизненный цикл к конкретным процессам и хостам. Это создает уязвимости: сбой или вытеснение executor-а может привести к повторным вычислениям, замедлению работы и росту потребления ресурсов — особенно в долгоживущих и ресурсоемких приложениях.
В стандартном подходе для повышения надежности применяется External Shuffle Service, однако он по-прежнему опирается на локальное хранение и требует дополнительной поддержки со стороны инфраструктуры. Мы реализовали альтернативный подход — хранение shuffle-данных в распределенном хранилище YTsaurus. Такой способ повышает надежность, упрощает квотирование ресурсов, позволяет динамически реконфигурировать кластер и открывает возможность применения альтернативного push-based подхода к shuffle-операциям без необходимости изменений со стороны Spark. Реализация полностью прозрачна и может применяться для всех Spark-задач, запускаемых на платформе YTsaurus, вне зависимости от типа и объема нагрузки.
В докладе будут рассмотрены детали интеграции YTsaurus со Spark, а также представлены актуальные результаты оценки производительности этого решения на реальных задачах платформы.
Занимается разработкой подсистемы MapReduce платформы YTsaurus.
Разработчик с 15+ лет опыта. Раньше работал в компаниях Qiwi, CleverData и Leroy Merlin. Последние десять лет разрабатывает распределенные системы для хранения и обработки больших объемов неструктурированных данных. В настоящее время в Яндексе занимается интеграцией Apache Spark с YTsaurus.
Базы данных и системы хранения
Крупнейшая профессиональная конференция для разработчиков высоконагруженных систем
Крупнейшая профессиональная конференция для разработчиков высоконагруженных систем
Крупнейшая профессиональная конференция для разработчиков высоконагруженных систем
Варианты участия
Офлайн-участие
Стоимость конференции постоянно растет — чем ближе к мероприятию, тем дороже.
Текущая стоимость билета — 105000 ₽
Онлайн-участие
Все потоки с докладами (но не потоки с митапами) будут транслироваться нами онлайн.
Текущая стоимость билета — 52500 ₽
Корпоративное участие (от 10 билетов)
Для заказа от 10 билетов на очное или онлайн-участие, свяжитесь с нами по partners@ontico.ru.
Передумали покупать?
Расскажите, почему
Благодарим вас за ответ!
Видео, доступные к покупке
Видео HighLoad++ 2025
6 и 7 ноября 2025
52500 ₽
Видео TeamLead Conf 2025
10 и 11 ноября 2025
52500 ₽
Видео DevOpsConf 2026
2 апреля 2026
44500 ₽
Видео Golang Conf 2026
20 апреля 2026
23000 ₽
Видео AiConf 2026
20 апреля 2026
23000 ₽
Видео Saint HighLoad++ 2026
22 и 23 июня 2026
44500 ₽
Видео Saint TeamLead Conf 2026
25 и 26 июня 2026
44500 ₽