Крупнейшая профессиональная конференция для разработчиков высоконагруженных систем

Проблемы при масштабировании сервиса для обхода антибот систем

Узкотематические секции

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Доклад освещает трудности, связанные с масштабированием сервисов для обхода антибот систем. Обсуждаются технические вызовы, такие как имитация браузеров и подделка отпечатков. Вы узнаете о сложностях, возникающих при обходе современных защитных мер.

Целевая аудитория

Доклад может быть интересен как тем, кто занимается веб-парсингом (сбором данных), так и тем, кто пытается от него защищаться. Может быть любопытен как интересующимся антифродом, так и всем тем, кому интересно, какие данные пользователей собирают сайты.

Тезисы

Открытость данных против интеллектуальной собственности.
Боты против системы защиты - эта игра в кошки мышки идёт уже много лет.
В докладе я расскажу о текущей ситуации в этом сражении.

Я участвую в развитии сервиса, который скачивает 200М страниц в день с сайтов, защищённых антибот системами.
Я расскажу, как мы пытались заставить браузер в контейнере под Linux выглядеть, как браузер под Windows.

О вызовах, с которыми мы столкнулись при масштабировании системы обхода таких антибот систем, как
- Cloudflare
- Datadome
- Incapsula
В частности, как антибот системы принимают решения базируясь на:
- Canvas
- Шрифтах
- Общей целостности отпечатка и почему сложно учесть все аспекты при его подделывании.

Последние 5 лет занимаюсь исследованием ботов и антибот систем на вебсайтах, принципами их работы.

Zyte

Zyte (бывший scrapinghub) - компания помогает собирать данные в интернете

Видео