Обфускация баз данныхБазы данных и системы хранения
Доклад принят в программу конференции
Тезисы
В вашей компании есть данные, представляющие коммерческую ценность. Такие данные нельзя просто так никому давать.
Но есть потребность в публикации изменённых или искусственных дата-сетов, максимально похожих на настоящие данные. Такие дата-сеты могут быть использованы для тестирования производительности, для отладки алгоритмов и для машинного обучения. Необходимое количество статистических свойств данных должно быть сохранено, но в то же время, данные должны быть анонимизированы.
Для разработки ClickHouse нам нужны дата-сеты, приближающие данные Яндекс.Метрики. Я расскажу про четыре разных подхода к решению задачи, которые мы попробовали - какой подход в итоге победил, и как самому им воспользоваться.
Другие доклады секции Базы данных и системы хранения
Container Storage Interface – безопасный и быстрый способ подружить контейнеры и хранилища
Владислав Белогрудов
Dell EMC
Катастрофы больше не страшны: как мы сделали асинхронную транзакционную репликацию в GridGain
Иван Раков
GridGain
Типичные ошибки при разработке приложений, работающих с PostgreSQL
Иван Фролков
Postgres Professional
Postgres 12 в этюдах
Олег Бартунов
Postgres Professional
Как мы обрабатываем миллиард событий в сутки без ClickHouse и схемы данных
Александр Харитонов
Pixonic
Postgres Highload Checklist
Иван Панченко
Postgres Professional
Columnstore - "старый" новый движок для аналитики от MariaDB
Роман Ноздрин
MariaDB Corporation