HighLoad++ 2015 завершён! Ждём вас в 2016 году!

Профессиональная конференция разработчиков высоконагруженных систем

2 и 3 ноября 2015 Крокус-Экспо МОСКВА
Профессиональная конференция разработчиков высоконагруженных систем

Эффективные алгоритмы поиска подобных объектов для терабайтов данных
BigData и машинное обучение

Доклад принят в Программу конференции
Segmento

С отличием окончил факультет психологии Санкт-Петербургского Государственного университета, ставил эксперименты и занимался обработкой электрофизиологических сигналов головного мозга. Начал карьеру специалиста по анализу данных в алгоритмическом хэдж фонде, где занимался разработкой роботов для высокочастотной торговли. В Rutarget занимается разработкой алгоритмов real-time bidding и поиском закономерностей поведения людей в Интернет. Помимо работы изучает software engineering в "Высшей Инженерной школе" Санкт-Петербургского Политехнического университета.

Научные интересы: cognitive science, reinforcement learning, computational advertising.

Тезисы

Segmento DMP хранит сотни миллионов анонимных профилей пользователей интернета. Часть из задач отдела Data Science связана с их кластеризацией и поиском нечетких дубликатов. Для успешного решения этих задач необходимо вычислить метрики сходства между профилями. Brute force подход на таких объемах данных уже не сработает, поэтому мы выбрали другой путь.

1. Какие расстояния будем считать?
В зависимости от предметной области и структуры данных метрики сходства между объектами могут отличаться. В этой части я расскажу про основные, которые используются в прикладном анализе: euclidean distances, jaccard distance, cosine distance , edit distance, hamming distance.
2. Locality-Sensitive Hashing.
В данной части я расскажу про хорошо известный в узких кругах алгоритм locality-sensitive hashing и сложности, связанные с его применением на практике.
3. Dimension Independent Matrix Square using MapReduce.
Обзор нового алгоритма, рожденного в глубинах Twitter и его MapReduce реализация.
4. Пример из реальной жизни.
Расскажу, как удалось применить данные техники на наших данных в задаче поиска пользователей, похожих на целевую аудиторию.

Rambler's Top100