Конференция завершена. Ждем вас на HighLoad++ в следующий раз!

Особенности построения и поддержки аналитического in-house data lake в EdTech

Data Lake / Data Mesh

Доклад принят в программу конференции

Тезисы

EdTech является сравнительно молодой областью, в которую внедряются Data Driven-подходы, что даёт несколько больше свободы для экспериментирования с техническим стеком. В нашем случае LMS (система управления обучением) развивалась децентрализовано с большим количеством сервисов-сателлитов (каждый со своим стеком), что приводило к тому, что аналитикам в первом приближении необходимо было выгружать данные из 3-5 источников и сводить потом данные на локальной машине, хотя всё можно было делать в рамках одного SQL-запроса.

Как мы с этим справились и причём здесь нарвалы — расскажу в рамках этого доклада, а также поговорим:
* как и почему мы выбрали именно Prefect как основной шедулер ETL, а не “классический” Airflow?
* как с помощью DBT стимулировать аналитиков писать документацию к разным уровням преобразования данных?
* что нужно сделать, чтобы подружить DWH-движок Dremio с Prefect’ом и DBT?

Кандидат физико-математических наук, около 10 лет суммарного опыта работы и ведения научных проектов: занимался построением и развитием алгоритмов машинного обучения для решения прикладных задач в разных сферах (от E-commerce до экологии и EdTech’а), а также оцифровки бизнеса с последующим переходом на DDD-стратегию управления. В настоящее время CDO видеосервиса more.tv, ранее руководил департаментом обработки данных в Skillbox. Доцент факультета «Информационные технологии и прикладная математика» МАИ (НИУ).

more.tv

more.tv — это все, что ты смотришь и даже больше. Тебя ждет самый широкий выбор сериалов, фильмов и развлекательных шоу для всей семьи, весь контент главных российских телеканалов в одном месте и совершенно бесплатно. Начни просмотр дома на сайте или телевизоре и продолжи в дороге в мобильном приложении в любое время. Открывай каждый день more.

Видео