В наше время бизнес все больше зависит от данных, их ценность возрастает, на их основе строятся различные продукты и принимаются критичные решения. Но что, если данные «плохие»? Я хотел бы поделиться, почему лучше считать, что все данные по умолчанию не очень, если не доказано обратное. Расскажу о таком процессе, как обеспечение качества данных или Data Quality и как оно связано с Data Governance.
На базе пресловутого DMbook посмотрим на базовые метрики DQ: Accuracy, Completeness, Consistency, Timeliness, Validity, Uniqueness, и обсудим, почему не всегда хорошо их использовать. Расскажу про текущих лидеров в Open Source и не только: Soda, Great_expetations, Deequ и т. д. Чем они хороши, и когда не стоит писать свой велосипед. Расскажу, как мы в Wildberries построили процесс проверки качества данных на дата-платформе, затрону нетривиальные кейсы на основе самописного холодного хранилища Blob Storage — как тут могут помочь эксперименты и непопулярные у нас технологии.