Highload++ 2017 завершён!

Профессиональная конференция разработчиков высоконагруженных систем

СКОЛКОВО, Москва 7 и 8 ноября

11-я ежегодная конференция для разработчиков highload-систем, которая соберет   2 700 участников из разных регионов России и мира. Мероприятие направлено на обмен знаниями о технологиях, позволяющих одновременно обслуживать многие тысячи и миллионы пользователей.

Программа охватывает такие аспекты веб-разработок, как архитектуры крупных проектов, базы данных и системы хранения, системное администрирование, нагрузочное тестирование, эксплуатация крупных проектов и другие направления, связанные с высоконагруженными системами.

Как подключить к Apache Spark проприетарный источник данных: теория, практика, грабли, костыли
BigData и машинное обучение

Доклад принят в Программу конференции
Яндекс.Go

5 лет работает с большими данными, а с Apache Spark имеет дело с релиза 1.5.2 (сейчас предпочитает 3.0.1). С помощью Spark и Spark Structured Streaming разрабатывала разные аналитические системы: от геоаналитики на сотнях терабайт данных до ML-платформы реального времени. По ходу дела много копалась во внутреннем устройстве Spark'а, встраивала в него поддержку проприетарных хранилищ, кастомизировала планировщик и оптимизировала джойны сотен таблиц. Собрала кучу недокументированных граблей на этом пути, о чём любит рассказывать коллегам.
Работала в компаниях Onefactor и Одноклассники, сейчас в Яндексе занимается прикручиванием Spark'a к внутренней инфраструктуре.

Тезисы

Apache Spark -- это популярный фреймворк для обработки данных. В него из коробки встроена интеграция с HDFS и разными форматами хранения, а, кроме этого, есть опенсорсные коннекторы почти к чему угодно. Но иногда эти коннекторы работают недостаточно оптимально, а для проприетарного хранилища просто не существует готовых решений. Тогда нужно разобраться в деталях API и написать коннектор самому.

Я расскажу о своём опыте прикручивания Spark к проприетарному хранилищу Яндекса YT. На примерах покажу, с какими трудностями пришлось столкнуться, какие есть тонкости и подводные камни. Расскажу, как написать свой коннектор: просто и быстро, или сложнее, но более эффективный. Я объясню внутреннее устройство Spark'а в этой области, обращая внимание на неочевидное поведение и места для расширения.

Базы данных / другое
,
Оптимизация производительности
,
Типовые ошибки
,
Лайфхаки
,
Инструменты

Другие доклады секции
BigData и машинное обучение

Лаборатория Касперского
Rambler's Top100