Профессиональная конференция разработчиков высоконагруженных систем

Москва, СКОЛКОВО,
7 и 8 ноября

Конференция прошла в этом году уже в десятый раз и собрала 2500 участников. Мероприятие направлено на обмен знаниями о технологиях, позволяющих одновременно обслуживать многие тысячи и миллионы пользователей.

Поиск совпадений и дедупликация в потоке

Узкотематические секции: видео, поиск, RTB, биллинги

Доклад принят в Программу конференции

Леонид Юрьев

Positive Technologies

TL;DR
Шаман в белой шляпе.

Тезисы

У вас есть миллиард файлов произвольного или неизвестного формата. Как выявить даже частичные совпадения, если одни файлы могут включать другие полностью или частями? Как делать это, имея доступ только к потоку байтов без начала и конца?

В докладе будет рассказ о разработанном подходе (алгоритме) для решения этой задачи. Принципиальное отличие от других методов в четких результатах с контролируемыми точностью и достоверностью, независимо от содержания и характера данных.

Можно уточнить, что речь пойдет о способе сегментирования произвольного потока данных для последующего шинглирования. При этом основной вопрос в том, как нарезать на вменяемые шинглы произвольную последовательность байтов без привязки к каким-либо абсолютным границам.

Архитектурные паттерны

Оптимизация производительности

Алгоритмы и их сравнение

Другое

Профессиональная конференция разработчиков высоконагруженных систем

Поиск совпадений и дедупликация в потоке Узкотематические секции: видео, поиск, RTB, биллинги

Тезисы

Другие доклады секции Узкотематические секции: видео, поиск, RTB, биллинги

Мы используем файлы cookie

Поиск совпадений и дедупликация в потоке
Узкотематические секции: видео, поиск, RTB, биллинги

Другие доклады секции
Узкотематические секции: видео, поиск, RTB, биллинги