Perplexity AI a scraping: Ignorování zákazů a skryté IP adresy
Zpět na blog8. 8. 2025
Sílící konflikt mezi vydavateli webového obsahu a AI společnostmi dostal nový impulz: Cloudflare odhalil, že startup Perplexity AI aktivně obchází zákaz scrapingu – ignoruje robots.txt, mění identitu svých botů a využívá skryté IP adresy. To vše navzdory tomu, že weby jasně deklarují, že si nepřejí být indexovány.
Podle technické analýzy Cloudflare Perplexity nejprve používá oficiálně deklarovaný user agent. Pokud je bot zablokován – např. pomocí robots.txt nebo firewallu – přepne na jiný agent (např. napodobující prohlížeč Chrome na macOS) a využívá IP adresy mimo svůj oficiální rozsah. Výsledkem je obcházení blokací a denní milionové objemy požadavků, které zatěžují servery webů bez jakékoli kompenzace či souhlasu.
AI scrapuje, ale nic nevrací
AI nástroje jako Perplexity či ChatGPT využívají webový obsah nejen pro trénování modelů, ale stále častěji i pro průběžné dotahování aktuálního obsahu v reálném čase. Provozovatelé webů tím však ztrácejí kontrolu nad svými daty i návštěvností.
Podle společnosti TollBit, která sleduje chování botů na internetu, vzrostl v roce 2025 podíl botů ignorujících robots.txt z 3,3 % na 12,9 %. Zatímco například Bing má poměr 11 scrapů na 1 lidskou návštěvu, u Perplexity je to 369:1, u Anthropicu dokonce 8 692:1. Každý AI dotaz vygeneruje náklad na straně původního webu (bandwidth, serverová kapacita), ale žádný přínos – uživatel zůstává v rozhraní AI nástroje. Tento parazitní model začíná být pro vydavatele neudržitelný.
Společnosti jako OpenAI či Perplexity proto hledají cestu ven. OpenAI zavádí například Web Bot Auth – nový standard pro identifikaci botů. Perplexity spustila program pro vydavatele, kteří výměnou za přístup k obsahu získají podíl na zisku. Některé AI firmy uzavírají licenční smlouvy s velkými médii a agregátory (např. Reddit).
Co mohou vydavatelé dělat?
– Nasadit technologická opatření jako jsou bot management systémy.
– Monitorovat a blokovat nestandardní chování botů, včetně podezřelých IP.
– Zvažovat zpoplatnění obsahu či přesun za přihlašovací brány.
– Vést veřejnou debatu a tlačit na transparentní regulaci chování AI firem.
Bez dohody mezi AI firmami a provozovateli webů hrozí, že se web uzavře za paywally a přestane být volně přístupný, nebo jej zahltí umělý obsah generovaný AI bez kontroly kvality. A třeba také AI bublina praskne, pokud nebude dlouhodobě finančně udržitelná.
Etika a transparentnost v oblasti datového scrapingu se stávají zásadním tématem digitální éry.
Zdroj: theregister.com
Zdroj ilustračního obrázku: vygenerováno pomocí AI