Highload++ 2017 завершён!

Профессиональная конференция разработчиков высоконагруженных систем

СКОЛКОВО, Москва 7 и 8 ноября

11-я ежегодная конференция для разработчиков highload-систем, которая соберет   2 700 участников из разных регионов России и мира. Мероприятие направлено на обмен знаниями о технологиях, позволяющих одновременно обслуживать многие тысячи и миллионы пользователей.

Программа охватывает такие аспекты веб-разработок, как архитектуры крупных проектов, базы данных и системы хранения, системное администрирование, нагрузочное тестирование, эксплуатация крупных проектов и другие направления, связанные с высоконагруженными системами.

Извлечение структурированной информации из web-страниц
Основная секция

Доклад принят в Программу конференции

Тезисы

Тезисы

Большинство сайтов содержит массив страниц, созданных лишь с помощью только одного шаблона. Поэтому при создании вертикального поиска приходится решать задачу выделения и обработки специализированной информации из структурированных страниц различных тематических сайтов.

  • Вертикальный поиск компании Рамблер.
  • Структура тематических сайтов, задача о выделении значимых данных на web-странице.
  • Обзор подходов извлечения структурированных данных. Алгоритмы построения шаблонов.
  • Реализованный подход: алгоритм принимает на вход массив web-страниц, вычисляет классы эквивалентности и автоматически строит регулярное выражение для автоматического извлечения значимых данных web-страницы.
  • Словари значимых данных.
  • Интеллектуальный маппинг областей значимых данных web-страницы.
  • Решение задачи перестройки регулярного выражения при изменении дизайна сайта.
  • Результаты.

О докладчике

Плошихин Виктор, отдел поиска и навигации, руководитель группы

Протасов Сергей, отдел поиска и навигации, ведущий программист

Контакты: v.ploshikhin@rambler-co.ru

Другие доклады секции
Основная секция

Rambler's Top100