Главная
→
2016
→
Узкотематические секции: видео, поиск, RTB, биллинги

Поиск совпадений и дедупликация в потоке
Узкотематические секции: видео, поиск, RTB, биллинги

Доклад принят в Программу конференции

Леонид Юрьев

Positive Technologies

TL;DR
Шаман в белой шляпе.

Тезисы

Зал «Дели + Калькутта»

7 ноября, 11:00

Поиск совпадений и дедупликация в потоке / Леонид Юрьев (Positive Technologies) from Ontico

У вас есть миллиард файлов произвольного или неизвестного формата. Как выявить даже частичные совпадения, если одни файлы могут включать другие полностью или частями? Как делать это, имея доступ только к потоку байтов без начала и конца?

В докладе будет рассказ о разработанном подходе (алгоритме) для решения этой задачи. Принципиальное отличие от других методов в четких результатах с контролируемыми точностью и достоверностью, независимо от содержания и характера данных.

Можно уточнить, что речь пойдет о способе сегментирования произвольного потока данных для последующего шинглирования. При этом основной вопрос в том, как нарезать на вменяемые шинглы произвольную последовательность байтов без привязки к каким-либо абсолютным границам.

Архитектурные паттерны

Оптимизация производительности

Алгоритмы и их сравнение

Другое