Highload++ 2017 завершён!

Профессиональная конференция разработчиков высоконагруженных систем

СКОЛКОВО, Москва 7 и 8 ноября

11-я ежегодная конференция для разработчиков highload-систем, которая соберет   2 700 участников из разных регионов России и мира. Мероприятие направлено на обмен знаниями о технологиях, позволяющих одновременно обслуживать многие тысячи и миллионы пользователей.

Программа охватывает такие аспекты веб-разработок, как архитектуры крупных проектов, базы данных и системы хранения, системное администрирование, нагрузочное тестирование, эксплуатация крупных проектов и другие направления, связанные с высоконагруженными системами.

Spark Structured Streaming и распределенный джойн в реальном времени
BigData и машинное обучение

Программный комитет ещё не принял решения по этому докладу
Rambler&Co

Разработчик платформы рекомендаций.
Специализируюсь на бэкенде, ETL задачах и поддержке инфраструктуры проекта.

Тезисы

Spark Structured Streaming – фреймворк для распределенной обработки данных в режиме близком к реальному времени. Его внушительный функционал позволяет строить сложные realtime-pipeline поставки данных для аналитики и машинного обучения.

Как перевести пайплайн обработки логов с ежедневного ETL на полноценный realtime? Как при этом не потратить все свободные ресурсы кластера? Что делать, если микробатч обрабатывается за 4 часа? Все это разберем на примере интеграции реального контура стриминга логов в рекомендательной системе Rambler&Co, с описанием граблей, на которые мы наступили в процессе разработки и интеграции нового решения.

Я расскажу про свой опыт построения realtime контура обработки данных с использованием Spark Structured Streaming. Обсудим с какими подводными камнями можно столкнуться, если использовать его вместе с Kafka и Clickhouse, и как увеличить свои шансы получить надежную шину для передачи данных в реальном времени.

Другие доклады секции
BigData и машинное обучение

Лаборатория Касперского
Rambler's Top100