YTsaurus Shuffle Service: как повысить надежность и производительность тяжелых Spark-приложений

Базы данных и системы хранения

Отказоустойчивость

Распределенные системы

Базы данных, обработка данных

YTSaurus

7 ноября, 15:50, «Зал B3»

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Глубокий (я бы сказал — глубинный) доклад для тех, кто интересуется стыком YTsaurus и Spark.

Целевая аудитория

Специалисты по Spark и MapReduce, пользователи YTsaurus, интересующиеся методами повышения надежности распределенных вычислений и внутренним устройством системы.

Тезисы

Скачать презентацию Все презентации конференции

При работе Apache Spark промежуточные shuffle-данные по умолчанию хранятся на локальных дисках executor-ов, что привязывает их жизненный цикл к конкретным процессам и хостам. Это создает уязвимости: сбой или вытеснение executor-а может привести к повторным вычислениям, замедлению работы и росту потребления ресурсов — особенно в долгоживущих и ресурсоемких приложениях.

В стандартном подходе для повышения надежности применяется External Shuffle Service, однако он по-прежнему опирается на локальное хранение и требует дополнительной поддержки со стороны инфраструктуры. Мы реализовали альтернативный подход — хранение shuffle-данных в распределенном хранилище YTsaurus. Такой способ повышает надежность, упрощает квотирование ресурсов, позволяет динамически реконфигурировать кластер и открывает возможность применения альтернативного push-based подхода к shuffle-операциям без необходимости изменений со стороны Spark. Реализация полностью прозрачна и может применяться для всех Spark-задач, запускаемых на платформе YTsaurus, вне зависимости от типа и объема нагрузки.

В докладе будут рассмотрены детали интеграции YTsaurus со Spark, а также представлены актуальные результаты оценки производительности этого решения на реальных задачах платформы.

Антон Рыбьянов

Яндекс

Занимается разработкой подсистемы MapReduce платформы YTsaurus.

Александр Токарев

Яндекс

Разработчик с 15+ лет опыта. Раньше работал в компаниях Qiwi, CleverData и Leroy Merlin. Последние десять лет разрабатывает распределенные системы для хранения и обработки больших объемов неструктурированных данных. В настоящее время в Яндексе занимается интеграцией Apache Spark с YTsaurus.