Проблемы при масштабировании сервиса для обхода антибот-систем

Узкотематические секции

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Доклад освещает трудности, связанные с масштабированием сервисов для обхода антибот-систем. Обсуждаются технические вызовы, такие как имитация браузеров и подделка отпечатков. Вы узнаете о сложностях, возникающих при обходе современных защитных мер.

Целевая аудитория

Доклад может быть интересен как тем, кто занимается веб-парсингом (сбором данных), так и тем, кто пытается от него защищаться. Может быть любопытен как интересующимся антифродом, так и всем тем, кому интересно, какие данные пользователей собирают сайты.

Тезисы

Открытость данных против интеллектуальной собственности. Боты против систем защиты — эта игра в кошки-мышки идёт уже много лет. В докладе я расскажу о текущей ситуации в этом сражении.

Я участвую в развитии сервиса, который скачивает 200М страниц в день с сайтов, защищённых антибот-системами. Расскажу, как мы пытались заставить браузер в контейнере под Linux выглядеть как браузер под Windows.

О вызовах, с которыми мы столкнулись при масштабировании системы обхода таких антибот-систем, как
* Cloudflare,
* Datadome,
* Incapsula.

В частности, как антибот-системы принимают решения, базируясь на:
* Canvas,
* шрифтах,
* общей целостности отпечатка и почему сложно учесть все аспекты при его подделывании.

Последние 5 лет занимается исследованием ботов и антибот-систем на вебсайтах, принципов их работы.

Zyte

Zyte (бывший scrapinghub) — компания помогает собирать данные в интернете.

Видео

Другие доклады секции

Узкотематические секции