Крупнейшая профессиональная конференция для разработчиков высоконагруженных систем

Оптимизация spark приложений от простого к сложному. С примерами

BigData и инфраструктура машинного обучения (data engineering)

Оптимизация производительности
Big Data и Highload в Enterprise
ETL
Оптимизация
Обработка данных

Доклад принят в программу конференции

Целевая аудитория

Этот доклад предназначен для специалистов, стремящихся глубже понять и улучшить свои навыки в области оптимизации Spark приложений, получить полезные советы и практические рекомендации на примерах реальных задач. Особенно доклад будет полезен для junior и middle de, аналитиков данных и всех кто использует spark

Тезисы

В современном мире больших данных и больших вычислительных нагрузок оптимизация Spark-приложений играет решающую роль в обеспечении эффективной работы систем. В данном докладе мы рассмотрим ключевые аспекты, позволяющие улучшить производительность Spark-приложений — от базовых методов до более сложных техник, которые вы сможете воспроизвести самостоятельно.

В докладе будут освещены следующие темы:


- Эффективное использование специального скрипта, ручного и автоматического репартицирования для улучшения обработки данных.
- Настройка оконных функций и их влияние на производительность.
- Различные подходы к объединению данных и случаи, когда лучше обойтись без него.
- Важные настройки Spark, которые могут существенно повысить производительность приложений.

В заключение доклада будет показано, как запуск множества небольших Spark-приложений в одном может повысить эффективность обработки данных и значительно снизить необходимые ресурсы, как ОЗУ, так и ЦПУ. Мы также обсудим, зачем это нужно и как все шаги, описанные в докладе, способствовали нашей цели.

Data Engineer
Голосовой антифрод
Чаптер DE и DEV

билайн

билайн – технологичная компания, предоставляющая клиентам услуги в области Big Data, IT, безопасности, облачных технологий, интернета вещей и рекламных инструментов. В штате работают более 3000 IT-специалистов, они помогают более 80 000 клиентам из разных отраслей бизнеса быть более эффективными.

Видео

Другие доклады секции

BigData и инфраструктура машинного обучения (data engineering)