Крупнейшая профессиональная конференция для разработчиков высоконагруженных систем

Data Quality против всех

BigData и инфраструктура машинного обучения (data engineering)

QA / другое
Big Data и Highload в Enterprise
Хранилища

Доклад принят в программу конференции

Мнение Программного комитета о докладе

В докладе будет подробно разобрано понятие качества данных, подходы к его обеспечению, экспертное заключение о том, что надо учитывать, когда разработчик, архитектор и менеджер имеют дело с разработкой системы, оперирующей важными данными.

Целевая аудитория

Дата инженеры и люди заинтересованные в качестве их данных DE,DQ

Тезисы

В наше время бизнес все больше зависит от данных, их ценность возрастает, на их основе строятся различные продукты и принимаются критичные решения. Но что если данные “плохие”? Я хотел бы поделиться, почему лучше считать, что все данные по умолчанию не очень, если не доказано обратное . Расскажу о таком процессе как Обеспечение качества данных или Data Quality и как оно связано с Data Governance.



На базе пресловутого DMbook посмотрим на базовые метрики DQ: Accuracy, Completeness, Consistency, Timeliness, Validity, Uniqueness и почему не всегда хорошо их использовать. Расскажу про текущих лидеров в open-source и не только: Soda, Great_expetations, Deequ и тд. Чем они хороши и когда не стоит писать свой велосипед. Расскажу,как мы в Wildberries построили процесс проверки качества данных на Дата платформе, затрону нетривиальные кейсы на основе самописного холодного хранилища Blob Storage –как тут могут помочь эксперименты и непопулярные у нас технологии.

Руковожу командой Качества в Платформе данных Wildberries. все: от данных до кода. Ранее работал на американского консалтера, двигал Data Quality для большого бизнеса

Wildberries

Wildberries — онлайн-платформа с 20-летней историей, где представлен широкий ассортимент продукции российских и международных брендов. География присутствия площадки охватывает 7 стран. Ежедневно покупателям отправляется свыше 12 млн товаров, а сеть пунктов выдачи заказов превышает 46 000 точек.

Видео

Другие доклады секции

BigData и инфраструктура машинного обучения (data engineering)