Возможности Spark Streaming для аналитики данных в потоковом режиме BigData и машинное обучение
Современный подход к обработке и аналитике данных требует максимально быстрой реакции. Для этого необходима минимальная задержка в данных. Во многих направлениях потоковая (стриминговая) аналитика данных дает конкурентные преимущества и открывает новые просторы для реализации дополнительного функционала.
Потоковая обработка данных сильно отличается от пакетной обработки по параметрам доступной функциональности, консистентности, стабильности и сложности сопровождения. Поэтому особо остро стоит вопрос выбора платформы и инструментов для реализации подобных приложений.
В докладе мы рассмотрим фреймворк Spark Streaming как инструмент для реализации стриминговых приложений, разберем доступную функциональность фреймворка, а также методы его оптимизации, плюсы и минусы, подходящие и неподходящие бизнес-задачи. Доклад основан на личном опыте использования Spark Streaming в приложениях, построенных на базе Hadoop или Kubernetes.
Артем занимается крупными международными big data-проектами в компании GridDynamics. Также Артем является преподавателем и автором курсов по большим данным в онлайн-школе GeekBrains. Ранее работал руководителем направления в Сбербанке, занимался большими данными и реализовывал проекты в хранилище данных Сбербанка. До Сбербанка работал в МегаФоне, где тоже занимался построением и развитием хранилища данных.