Вилков Евгений на HighLoad++ Genesis 2025

Внесение оптимизационных улучшений в процессингововые движки обработки данных

Доклад

Hadoop

ETL

Хранилища

Обработка данных

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

Архитекторы данных, Дата инженеры, архитекторы баз данных и систем массивных параллельных вычислений

Тезисы

Я расскажу с какими узкими местами сталкиваются системы массивной обработки больших. Какие изменения в процессинговый движок относительно open source реализации были внесены и как на практике эти изменения помогают улучшить производительность и пропускную способность в pipeline'ах обработки данных.

Вилков Евгений

Data Sapience

23 года в IT. С 2007 занимаюсь проектированием систем обработки данных. Последние 13 лет опыта связаны с системами массивных параллельных вычислений с применением которых реализовал больше 50 проектов с объемом данных от 10 Гб по 10 Пб. Являюсь руководителем линейки продуктов для работы с большими данными Data Ocean российского вендора Data Sapience.