Конференция завершена. Ждем вас на HighLoad++ Foundation в следующий раз!

Особенности построения и поддержки аналитического in-house data lake в EdTech

Data Lake / Data Mesh

Доклад принят в программу конференции

Тезисы

EdTech является сравнительно молодой областью, в которую внедряются Data Driven-подходы, что даёт несколько больше свободы для экспериментирования с техническим стеком. В нашем случае LMS (система управления обучением) развивалась децентрализовано с большим количеством сервисов-сателлитов (каждый со своим стеком), что приводило к тому, что аналитикам в первом приближении необходимо было выгружать данные из 3-5 источников и сводить потом данные на локальной машине, хотя всё можно было делать в рамках одного SQL-запроса.

Как мы с этим справились и причём здесь нарвалы — расскажу в рамках этого доклада, а также поговорим:
* как и почему мы выбрали именно Prefect как основной шедулер ETL, а не “классический” Airflow?
* как с помощью DBT стимулировать аналитиков писать документацию к разным уровням преобразования данных?
* что нужно сделать, чтобы подружить DWH-движок Dremio с Prefect’ом и DBT?

Кандидат физико-математических наук, около 10 лет суммарного опыта работы и ведения научных проектов: занимался построением и развитием алгоритмов машинного обучения для решения прикладных задач в разных сферах (от E-commerce до экологии и EdTech’а), а также оцифровки бизнеса с последующим переходом на DDD-стратегию управления. Руководил департаментом обработки данных в Skillbox. Доцент факультета «Информационные технологии и прикладная математика» МАИ (НИУ).

Видео