В наше время бизнес все больше зависит от данных, их ценность возрастает, на их основе строятся различные продукты и принимаются критичные решения. Но что если данные “плохие”? Я хотел бы поделиться, почему лучше считать, что все данные по умолчанию не очень, если не доказано обратное . Расскажу о таком процессе как Обеспечение качества данных или Data Quality и как оно связано с Data Governance.
На базе пресловутого DMbook посмотрим на базовые метрики DQ: Accuracy, Completeness, Consistency, Timeliness, Validity, Uniqueness и почему не всегда хорошо их использовать. Расскажу про текущих лидеров в open-source и не только: Soda, Great_expetations, Deequ и тд. Чем они хороши и когда не стоит писать свой велосипед. Расскажу,как мы в Wildberries построили процесс проверки качества данных на Дата платформе, затрону нетривиальные кейсы на основе самописного холодного хранилища Blob Storage –как тут могут помочь эксперименты и непопулярные у нас технологии.