Как достать всё что угодно со всего интернета

BigData и машинное обучение

Архитектурные кейсы

#Поисковые системы
#Организация системы кеширования
#Machine Learning

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Илья расскажет, как они оптимизировали данные, чтобы быстро их обрабатывать (и быстро проверять наличие товаров). А парсинг у них интересный: * парсят данные всего потока робота яндекса — без батчеваний и замедлений; * с очень высокой точностью и полнотой; * потребляет очень мало CPU и GPU.

Целевая аудитория

Наши идеи будут полезны коллегам, которым приходится извлекать структурированные данные из интернета как для решения мелких задач, так и для построения огромных систем вроде нашей.

Тезисы

Недавно Яндекс запустил поиск по товарам (https://yandex.ru/products), который позволяет находить актуальные предложения во всех интернет-магазинах. Он ищет товары и в крупных маркетплейсах (Ozon, Wildberries, Яндекс Маркет), и в маленьких с десятком-сотней товаров, которые невозможно найти без поиска.

Ключевая задача поиска по товарам — подготовить самую полную базу товаров всего интернета. Эта база формируется на основе данных партнёрских фидов и самостоятельного парсинга товаров в интернете, причём парсинг поставляет значительную часть товаров. Без парсинга поиск по товарам превратился бы в поиск по списку сайтов, а не по всему интернету. На практике решение этой технической задачи оказалось настолько интересным, что нам захотелось им поделиться.

В докладе опишу практический кейс запуска поиска по товарам, но все представленные идеи и подходы мы применяли и на других задачах по извлечению данных. В процессе расскажу, какие подходы к парсингу мы использовали, как оптимизировали код похостовым кэшированием, как поддерживаем актуальность цен, как устроено машинное обучение и с какими подзадачами мы справились недостаточно хорошо.

Руководитель отдела разработки поиска по товарам в Яндексе.
Решает задачи, связанные с построением поисковой базы товаров, её обогащением (кластеризацией, атрибутами), качеством ранжирования товаров. Всё это помогает сделать поиск Яндекса самым удобным и полным инструментом для выбора товарных предложений.

Яндекс

Яндекс — технологическая компания, которая создаёт инновационные продукты на основе машинного обучения и нейронных сетей. Команда талантливых математиков и программистов развивает самую популярную в России поисковую систему и более 85 пользовательских сервисов, которые помогают людям в повседневных заботах. Основные бизнес-направления: поиск и электронная коммерция, сервисы объявлений, медиасервисы, онлайн-заказ такси и еды, беспилотные автомобили, продукты для рекламодателей и владельцев бизнеса. Яндекс также активно развивает проекты с открытым исходным кодом, например, CatBoost, YDB и userver.

Видео