Ускорение индекса в поиске по VK-видео

Резерв

Оптимизация
Хранилища
Обработка данных

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Некоторое время назад в Polytechnic Institute of NYU придумали изменить способ обхода скип-листов и выпустили whitepaper «block max index». Но оказалось, что сделать работающее решение не так просто. Спикер из VK AI расскажет и как реализовали, и как ускорился поиск, и про подводные камни.

Целевая аудитория

Специалисты в области построения систем информационного поиска, разработчики систем хранения данных, разработчики высоконагруженных приложений.

Тезисы

Задача информационного поиска — получения наиболее релевантной информации по запросам на естественном языке — остается одной из самых актуальных в современном интернете. Число документов, по которым ведется поиск, может исчисляться миллиардами, поэтому поисковым движком должна эффективно решаться задача быстрого и качественного отбора кандидатов для финального ранжирования.

Классический способ отбора и простой оценки релевантности кандидатов — алгоритм BM25. Он не теряет актуальность и в современных движках, и на его работу приходится значительная часть времени обработки запроса. В докладе будет рассказано о технических аспектах и результатах внедрения метода хранения block max index и алгоритма early termination для решения задачи чернового отбора кандидатов.

Руководитель группы core-технологий ранжирования в поиске ВК. Занимается с командой разработкой и поддержкой поискового backend. Взаимодействуют с пайплайнами подготовки данных, индексации, хранилищами, применением моделей машинного обучения.

AI VK

VK — это более 200 технологичных и высоконагруженных проектов, свыше 15 000 сотрудников. ВКонтакте, ОК, VK Cloud, Дзен, Маруся, VK Play — это лишь часть продуктов VK, которыми ежедневно пользуются миллионы людей. VK AI — подразделение VK, специализирующееся на применении технологий машинного обучения в продуктах компании. Рекомендательные и поисковые системы, работа с большими языковыми моделями, обработка звука, картинок и видео — они занимаются этим и многим другим.

Видео