DeepSeek: cosa c’è da sapere sull’AI che preoccupa gli USA
Perplexity accusata di scraping illegale
6 Agosto 2025
Il provider di infrastrutture internet Cloudflare ha denunciato pubblicamente Perplexity AI per scraping illegale, accusando la startup di aver aggirato le restrizioni esplicite di numerosi siti web.
Secondo la ricerca pubblicata il 4 agosto 2025, l’intelligenza artificiale di Perplexity avrebbe raccolto contenuti da decine di migliaia di domini, ignorando regole fondamentali come il file robots.txt.
Violazioni del file robots.txt e user-agent mascherati
Uno dei punti più gravi evidenziati da Cloudflare riguarda le violazioni dei file robots.txt, lo standard che permette ai siti di segnalare quali contenuti possono essere indicizzati o meno.
Perplexity è accusata di ignorare queste indicazioni, modificando i propri user-agent per nascondere l’identità dei suoi bot e presentarsi come browser legittimi come Google Chrome su macOS.
LEGGI ANCHE: Google lancia Gemini 2.5 Deep Think, il modello AI che ragiona in parallelo
Cloudflare vs Perplexity: le accuse nel dettaglio
Secondo Cloudflare, Perplexity avrebbe utilizzato reti ASN e tecniche di fingerprinting per aggirare i controlli. L’infrastruttura rilevata, abbinata a richieste massive, suggerisce un tentativo consapevole di eludere i blocchi ai bot.
L’attività è stata registrata da milioni di richieste al giorno, nonostante i siti avessero esplicitamente bloccato Perplexity nel file robots.txt.
Perplexity cambia user-agent per aggirare i blocchi
Uno degli elementi centrali della denuncia riguarda il cambio degli user-agent da parte di Perplexity. Il crawler si presentava sotto diverse identità, tra cui browser generici, simulando l’accesso umano da desktop comuni.
E questo comportamento rientra tra le pratiche più contestate nel dibattito su AI e scraping: strumenti automatizzati che plagiano contenuti da siti non autorizzati, violando regole tecniche ed etiche.
LEGGI ANCHE: GPT-5 arriva ad agosto: tutto quello che sappiamo finora
Bot AI non autorizzati e tutela dei contenuti web
La polemica con Perplexity evidenzia il crescente problema dei bot AI non autorizzati che violano la tutela dei contenuti web.
Sempre più siti cercano di difendersi da intelligenze artificiali che prelevano contenuti senza permesso, sfruttandoli per addestrare modelli generativi. La tecnologia, però, sta superando le difese: il rispetto della privacy online e del copyright digitale è oggi più fragile che mai.
Cloudflare contro gli scraper AI: nuovi strumenti di difesa
Cloudflare non si è limitata alla denuncia. L’azienda ha annunciato di aver rimosso Perplexity dalla lista dei bot verificati e introdotto nuove tecniche per bloccare lo scraping.
Tra le iniziative più recenti: un marketplace che consente ai publisher di far pagare le AI per accedere ai contenuti, e uno strumento gratuito per bloccare bot AI non trasparenti.
AI che plagia contenuti: il precedente con Wired e Disrupt 2024
Non è la prima volta che Perplexity viene accusata di scraping non autorizzato. Già nel 2024, testate come Wired avevano sollevato dubbi su contenuti copiati senza citazione.
In quell’occasione, durante un’intervista pubblica al Disrupt 2024, il CEO di Perplexity non seppe definire con chiarezza il concetto di plagio, lasciando intendere una zona grigia tra uso lecito e violazione dei diritti d’autore.
AI e rispetto della privacy online: il dibattito resta aperto
Il caso Perplexity rilancia il tema dell’intelligenza artificiale e rispetto della privacy online.
Fin dove può spingersi una AI per migliorare la qualità delle sue risposte? Chi tutela i contenuti originali prodotti da publisher, blogger e giornalisti?
La sfida tra innovazione e regolamentazione è appena cominciata, ma la posta in gioco è l’equilibrio stesso del web.