Пресловутая компонента ранжирования Search Engines Основная секция
Тезисы
В битве титанов полнотекстовых поисковых технологий рождались и рождаются сейчас новые компоненты, оказывающие большее или меньшее влияние на результаты их поисковой деятельности. Основатели Google открыл еще одну страницу истории, объявив об использовании в ранжировании Google PageRank. Это было давно и существует масса публикаций на эту тему разного уровня популяризации. Все мы, в большей или меньшей степени, понимаем суть этой метрики.
Но мало кто из нас понимает, а каким же образом реально можно высчитать для каждой страницы набора документов мирового web-пространства степень ее значимости, в сравнении со всеми остальными? Какие существуют "честные" и "не очень честные" способы? Как архитектурное решение поисковой системы может оказать влияние на подобные расчеты?
В рамках общих исследований различных аспектов поисковых технологий мне пришлось на практике воплотить в жизнь вычисления значимости отдельных гипертекстовых страниц на коллекции в 400 млн. документов. Выработанное решение легко масштабируется на большие коллекции. Я не знаю, как на практике это делает Google, Яндекс и другие, уважаемые мной, поисковые системы. Возможно, что также. Вот об этом я бы и хотел рассказать.