Сергей Жемжицкий на HighLoad++ 2023

Data Sketches — как съесть слона целиком (даже если он бесконечный)

BigData и машинное обучение

Хардкор

27 ноября, 13:30, Зал «Уфа»

Google Outlook Apple

Доклад принят в программу конференции

Целевая аудитория

Data-инженеры и data-аналитики.

Тезисы

Скачать презентацию Все презентации конференции

При обработке и анализе данных часто возникают задачи, которые сложно масштабировать из-за огромного количества требуемых вычислительных ресурсов или значительного количества времени для получения точных результатов. Примеры таких задач — подсчет уникальных элементов, подсчет распределения элементов, определение частоты тех или иных элементов и т. д.

Если приблизительные результаты при решении подобных задач допустимы, то существует класс алгоритмов, называемых потоковыми или скетчами, которые позволяют получить результат (в заданных пределах погрешности) на несколько порядков быстрее. В случае пакетной обработки данных, жизнеспособных альтернатив часто может и не быть, а в случае потоковой обработки данных скетчи — единственное известное жизнеспособное решение.

Дата-скетчи (HyperLogLog, CPC, Theta, Count-min, Fdt, KLL и др.) могут стать отличным инструментом для всех, кому необходимо извлекать полезную информацию из больших объемов данных на ежедневной основе, используя приемлемое количество времени и ресурсов.

Сергей Жемжицкий

Arenadata

Любит технологии и простые решения непростых задач.
Любит технологии и простые решения непростых задач. Почти 15 лет занимается вопросами сбора и обработки данных. В прошлом — Head of Data RnD-подразделения крупного банка, а также сооснователь и CTO стартапа по сбору, обработке и анализу пользовательских данных (Customer Data Platform).

Arenadata

Arenadata — ведущий разработчик платформы сбора и хранения данных. Платформа данных для компаний, которые хотят изменить бизнес с помощью цифровизации процессов и сложной аналитики, основанной на использовании Big Data.