Особенности построения и поддержки аналитического in-house data lake в EdTech
Доклад принят в программу конференции
Целевая аудитория
Тезисы
EdTech является сравнительно молодой областью, в которую внедряются Data Driven-подходы, что даёт несколько больше свободы для экспериментирования с техническим стеком. В нашем случае LMS (система управления обучением) развивалась децентрализовано с большим количеством сервисов-сателлитов (каждый со своим стеком), что приводило к тому, что аналитикам в первом приближении необходимо было выгружать данные из 3-5 источников и сводить потом данные на локальной машине, хотя всё можно было делать в рамках одного SQL-запроса.
Как мы с этим справились и причём здесь нарвалы — расскажу в рамках этого доклада, а также поговорим:
* как и почему мы выбрали именно Prefect как основной шедулер ETL, а не “классический” Airflow?
* как с помощью DBT стимулировать аналитиков писать документацию к разным уровням преобразования данных?
* что нужно сделать, чтобы подружить DWH-движок Dremio с Prefect’ом и DBT?
Кандидат физико-математических наук, около 10 лет суммарного опыта работы и ведения научных проектов: занимался построением и развитием алгоритмов машинного обучения для решения прикладных задач в разных сферах (от E-commerce до экологии и EdTech’а), а также оцифровки бизнеса с последующим переходом на DDD-стратегию управления. В настоящее время CDO видеосервиса more.tv, ранее руководил департаментом обработки данных в Skillbox. Доцент факультета «Информационные технологии и прикладная математика» МАИ (НИУ).
more.tv
Видео
Другие доклады секции
BigData и машинное обучение