Оптимизация spark приложений от простого к сложному. С примерами
Доклад принят в программу конференции
Целевая аудитория
Тезисы
В современном мире больших данных и больших вычислительных нагрузок оптимизация Spark-приложений играет решающую роль в обеспечении эффективной работы систем. В данном докладе мы рассмотрим ключевые аспекты, позволяющие улучшить производительность Spark-приложений — от базовых методов до более сложных техник, которые вы сможете воспроизвести самостоятельно.
В докладе будут освещены следующие темы:
- Эффективное использование специального скрипта, ручного и автоматического репартицирования для улучшения обработки данных.
- Настройка оконных функций и их влияние на производительность.
- Различные подходы к объединению данных и случаи, когда лучше обойтись без него.
- Важные настройки Spark, которые могут существенно повысить производительность приложений.
В заключение доклада будет показано, как запуск множества небольших Spark-приложений в одном может повысить эффективность обработки данных и значительно снизить необходимые ресурсы, как ОЗУ, так и ЦПУ. Мы также обсудим, зачем это нужно и как все шаги, описанные в докладе, способствовали нашей цели.
Data Engineer
Голосовой антифрод
Чаптер DE и DEV
билайн
Видео
Другие доклады секции
BigData и инфраструктура машинного обучения (data engineering)