Крупнейшая профессиональная конференция для разработчиков высоконагруженных систем

Data Sketches — как съесть слона целиком (даже если он бесконечный)

BigData и машинное обучение

Хардкор

Доклад принят в программу конференции

Целевая аудитория

Data-инженеры и data-аналитики.

Тезисы

При обработке и анализе данных часто возникают задачи, которые сложно масштабировать из-за огромного количества требуемых вычислительных ресурсов или значительного количества времени для получения точных результатов. Примеры таких задач — подсчет уникальных элементов, подсчет распределения элементов, определение частоты тех или иных элементов и т. д.

Если приблизительные результаты при решении подобных задач допустимы, то существует класс алгоритмов, называемых потоковыми или скетчами, которые позволяют получить результат (в заданных пределах погрешности) на несколько порядков быстрее. В случае пакетной обработки данных, жизнеспособных альтернатив часто может и не быть, а в случае потоковой обработки данных скетчи — единственное известное жизнеспособное решение.

Дата-скетчи (HyperLogLog, CPC, Theta, Count-min, Fdt, KLL и др.) могут стать отличным инструментом для всех, кому необходимо извлекать полезную информацию из больших объемов данных на ежедневной основе, используя приемлемое количество времени и ресурсов.

Любит технологии и простые решения непростых задач.
Около 10 лет пытается дружить с данными, иногда получается, а иногда — не очень.
В прошлой жизни разработал несколько DMP/CDP (Data Management / Customer Data Platform).

SberDevices

SberDevices — российская IT-компания полного цикла. Центр экспертизы в области искусственного интеллекта, речевых технологий и потребительской электроники для людей и бизнеса. Мы разрабатываем и производим умные устройства с ассистентами Салют — от ТВ-приставок до телевизоров.

Видео

Другие доклады секции

BigData и машинное обучение