Поиск совпадений и дедупликация в потоке Узкотематические секции: видео, поиск, RTB, биллинги
Advanced Research, White Hat Shaman.
Автор t1ha, разработчик libmdbx, архитектор TopGun DPI.
clip.dqd.kfa @ Positive Technologies | Z△V
Ранее был замечен в Петер-Сервис R&D, Центре Инноваций Натальи Касперской, InfoWatch, КБ Кроникс, ...
30 лет живу разработкой.
Тезисы
У вас есть миллиард файлов произвольного или неизвестного формата. Как выявить даже частичные совпадения, если одни файлы могут включать другие полностью или частями? Как делать это, имея доступ только к потоку байтов без начала и конца?
В докладе будет рассказ о разработанном подходе (алгоритме) для решения этой задачи. Принципиальное отличие от других методов в четких результатах с контролируемыми точностью и достоверностью, независимо от содержания и характера данных.
Можно уточнить, что речь пойдет о способе сегментирования произвольного потока данных для последующего шинглирования. При этом основной вопрос в том, как нарезать на вменяемые шинглы произвольную последовательность байтов без привязки к каким-либо абсолютным границам.