Тезисы
Тезисы
Большинство сайтов содержит массив страниц, созданных лишь с помощью только одного шаблона. Поэтому при создании вертикального поиска приходится решать задачу выделения и обработки специализированной информации из структурированных страниц различных тематических сайтов.
- Вертикальный поиск компании Рамблер.
- Структура тематических сайтов, задача о выделении значимых данных на web-странице.
- Обзор подходов извлечения структурированных данных. Алгоритмы построения шаблонов.
- Реализованный подход: алгоритм принимает на вход массив web-страниц, вычисляет классы эквивалентности и автоматически строит регулярное выражение для автоматического извлечения значимых данных web-страницы.
- Словари значимых данных.
- Интеллектуальный маппинг областей значимых данных web-страницы.
- Решение задачи перестройки регулярного выражения при изменении дизайна сайта.
- Результаты.
О докладчике
Плошихин Виктор, отдел поиска и навигации, руководитель группы
Протасов Сергей, отдел поиска и навигации, ведущий программист
Контакты: v.ploshikhin@rambler-co.ru