Оптимизация Spark-приложений от простого к сложному. С примерами

BigData и инфраструктура машинного обучения (data engineering)

Оптимизация производительности
Big Data и Highload в Enterprise
ETL
Оптимизация
Обработка данных

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Это доклад о том, как инженеры билайн делают свой Spark-код быстрее. О вариантах оптимизации, направленных на более тесную связь между языком программирования и Spark, к примеру, как выбор Map или Set может сильно ускорить расчёты.

Целевая аудитория

Этот доклад предназначен для специалистов, стремящихся глубже понять и улучшить свои навыки в области оптимизации Spark-приложений, получить полезные советы и практические рекомендации на примерах реальных задач. Особенно доклад будет полезен для junior и middle de, аналитиков данных и всех, кто использует Spark.

Тезисы

В современном мире больших данных и больших вычислительных нагрузок оптимизация Spark-приложений играет решающую роль в обеспечении эффективной работы систем. В данном докладе мы рассмотрим ключевые аспекты, позволяющие улучшить производительность Spark-приложений — от базовых методов до более сложных техник, которые вы сможете воспроизвести самостоятельно.

В докладе будут рассмотрено:
* эффективное использование специального скрипта, ручного и автоматического репартицирования для улучшения обработки данных;
* настройка оконных функций и их влияние на производительность;
* различные подходы к объединению данных и случаи, когда лучше обойтись без него.

В заключение доклада будет показано, как запуск множества небольших Spark-приложений в одном может повысить эффективность обработки данных и значительно снизить необходимые ресурсы — как ОЗУ, так и ЦПУ. Мы также обсудим, зачем это нужно и как все шаги, описанные в докладе, способствовали нашей цели.

Data Engineer.
Голосовой антифрод.
Чаптер DE и DEV.

билайн

билайн — технологичная компания, предоставляющая клиентам услуги в области Big Data, IT, безопасности, облачных технологий, интернета вещей и рекламных инструментов. В штате работают более 3000 IT-специалистов, они помогают более 80 000 клиентам из разных отраслей бизнеса быть более эффективными.

Видео

Другие доклады секции

BigData и инфраструктура машинного обучения (data engineering)