Задача информационного поиска - получения наиболее релевантной информации по запросам на естественном языке - остается одной из самых актуальных в современном интернете. Число документов, по которым ведется поиск, может исчисляться миллиардами, поэтому поисковым движком должна эффективно решаться задача быстрого и качественного отбора кандидатов для финального ранжирования.
Классический способ отбора и простой оценки релевантности кандидатов - алгоритм BM25. Он не теряет актуальность и в современных движках и на его работу приходится значительная часть времени обработки запроса. В докладе будет рассказано о технических аспектах и результатах внедрения метода хранения block max index и алгоритма early termination для решения задачи чернового отбора кандидатов.