Профессиональная конференция разработчиков высоконагруженных систем

Frontera: распределенный робот для обхода веба в больших объемах

BigData и машинное обучение

Доклад принят в Программу конференции

Scrapinghub

Работал 5 лет в Яндексе, в отделе качества поиска. Занимался разработкой социального поиска, вопрос-ответного и улучшением сниппетов. Затем провел 2 года в антивирусе Avast!, построил автоматическое разрешение ложных срабатываний. Интересуется проблемами обработки данных в больших объемах и информационного поиска.

Тезисы

В этом докладе я собираюсь поделиться нашим опытом обхода испанского интернета. Мы поставили перед собой задачу обойти около 600 тысяч веб-сайтов в зоне .es с целью сбора статистики об узлах и их размерах. Я расскажу об архитектуре робота, хранилища, проблемах, с которыми мы столкнулись при обходе, и их решении.

Наше решение доступно в форме open source фреймворка Frontera. Фреймворк позволяет построить распределенного робота для скачивания страниц из Интернета в больших объемах в реальном времени. Также он может быть использован для построения сфокусированных роботов для выкачивания подмножества заранее известных веб-сайтов.

Фреймворк предлагает: настраиваемое хранилище URL документов (RDBMS или Key Value), управление стратегиями обхода, абстракцию транспортного уровня (скоро!), абстракцию модуля загрузки.

Доклад построен в увлекательной форме: описание проблемы, решение и проблемы, которые возникли в ходе разработки решения.

Профессиональная конференция разработчиков высоконагруженных систем

Профессиональная конференция разработчиков высоконагруженных систем

Frontera: распределенный робот для обхода веба в больших объемах BigData и машинное обучение

Тезисы

Другие доклады секции BigData и машинное обучение

Мы используем файлы cookie

Frontera: распределенный робот для обхода веба в больших объемах
BigData и машинное обучение

Другие доклады секции
BigData и машинное обучение