Data Quality против всех

BigData и инфраструктура машинного обучения (data engineering)

QA / другое
Big Data и Highload в Enterprise
Хранилища

Доклад принят в программу конференции

Мнение Программного комитета о докладе

В докладе будет подробно разобрано понятие качества данных, подходы к его обеспечению, экспертное заключение о том, что надо учитывать, когда разработчик, архитектор и менеджер имеют дело с разработкой системы, оперирующей важными данными.

Целевая аудитория

Дата-инженеры и люди, заинтересованные в качестве их данных. DE, DQ.

Тезисы

В наше время бизнес все больше зависит от данных, их ценность возрастает, на их основе строятся различные продукты и принимаются критичные решения. Но что, если данные «плохие»? Я хотел бы поделиться, почему лучше считать, что все данные по умолчанию не очень, если не доказано обратное. Расскажу о таком процессе, как обеспечение качества данных или Data Quality и как оно связано с Data Governance.

На базе пресловутого DMbook посмотрим на базовые метрики DQ: Accuracy, Completeness, Consistency, Timeliness, Validity, Uniqueness, и обсудим, почему не всегда хорошо их использовать. Расскажу про текущих лидеров в Open Source и не только: Soda, Great_expetations, Deequ и т. д. Чем они хороши, и когда не стоит писать свой велосипед. Расскажу, как мы в Wildberries построили процесс проверки качества данных на дата-платформе, затрону нетривиальные кейсы на основе самописного холодного хранилища Blob Storage — как тут могут помочь эксперименты и непопулярные у нас технологии.

Руководит командой Качества в Платформе данных Wildberries. Все: от данных до кода. Ранее работал на американского консалтера, двигал Data Quality для большого бизнеса.

Wildberries

Wildberries — онлайн-платформа с 20-летней историей, где представлен широкий ассортимент продукции российских и международных брендов. География присутствия площадки охватывает 7 стран. Ежедневно покупателям отправляется свыше 12 млн товаров, а сеть пунктов выдачи заказов превышает 46 000 точек.

Видео

Другие доклады секции

BigData и инфраструктура машинного обучения (data engineering)