Задача информационного поиска — получения наиболее релевантной информации по запросам на естественном языке — остается одной из самых актуальных в современном интернете. Число документов, по которым ведется поиск, может исчисляться миллиардами, поэтому поисковым движком должна эффективно решаться задача быстрого и качественного отбора кандидатов для финального ранжирования.
Классический способ отбора и простой оценки релевантности кандидатов — алгоритм BM25. Он не теряет актуальность и в современных движках, и на его работу приходится значительная часть времени обработки запроса. В докладе будет рассказано о технических аспектах и результатах внедрения метода хранения block max index и алгоритма early termination для решения задачи чернового отбора кандидатов.