Data Sketches — как съесть слона целиком (даже если он бесконечный)
Доклад принят в программу конференции
Целевая аудитория
Тезисы
При обработке и анализе данных часто возникают задачи, которые сложно масштабировать из-за огромного количества требуемых вычислительных ресурсов или значительного количества времени для получения точных результатов. Примеры таких задач — подсчет уникальных элементов, подсчет распределения элементов, определение частоты тех или иных элементов и т. д.
Если приблизительные результаты при решении подобных задач допустимы, то существует класс алгоритмов, называемых потоковыми или скетчами, которые позволяют получить результат (в заданных пределах погрешности) на несколько порядков быстрее. В случае пакетной обработки данных, жизнеспособных альтернатив часто может и не быть, а в случае потоковой обработки данных скетчи — единственное известное жизнеспособное решение.
Дата-скетчи (HyperLogLog, CPC, Theta, Count-min, Fdt, KLL и др.) могут стать отличным инструментом для всех, кому необходимо извлекать полезную информацию из больших объемов данных на ежедневной основе, используя приемлемое количество времени и ресурсов.
Любит технологии и простые решения непростых задач.
Около 10 лет пытается дружить с данными, иногда получается, а иногда — не очень.
В прошлой жизни разработал несколько DMP/CDP (Data Management / Customer Data Platform).
SberDevices
Видео
Другие доклады секции
BigData и машинное обучение