Александра Белоусова

Яндекс.Go

5 лет работает с большими данными, а с Apache Spark имеет дело с релиза 1.5.2 (сейчас предпочитает 3.0.1). С помощью Spark и Spark Structured Streaming разрабатывала разные аналитические системы: от геоаналитики на сотнях терабайт данных до ML-платформы реального времени. По ходу дела много копалась во внутреннем устройстве Spark'а, встраивала в него поддержку проприетарных хранилищ, кастомизировала планировщик и оптимизировала джойны сотен таблиц. Собрала кучу недокументированных граблей на этом пути, о чём любит рассказывать коллегам.
Работала в компаниях Onefactor и Одноклассники, сейчас в Яндексе занимается прикручиванием Spark'a к внутренней инфраструктуре.

Telegram: @abelousova

Доклады

Как подключить к Apache Spark проприетарный источник данных: теория, практика, грабли, костыли

BigData и машинное обучение

HighLoad++ Весна 2021