Perplexity se donne beaucoup de mal pour contourner votre fichier robots.txt
Cloudflare a publié cette semaine des observations inquiétantes concernant le moteur de recherche conversationnel Perplexity. Malgré la présence de directives explicites dans les fichiers robots.txt interdisant l’accès à certains contenus, l’entreprise affirme que Perplexity parvient à les récupérer en utilisant des méthodes furtives. Une situation qui soulève des questions de confiance et d’éthique dans l’écosystème web.
Perplexity utilise des techniques BlackHat pour crawler le web
Selon Cloudflare, Perplexity adopte une double approche pour accéder à des contenus bloqués :
- d’abord, via ses agents utilisateurs officiels (PerplexityBot et Perplexity-User)
- puis, en cas de blocage, via des user agents génériques imitant des navigateurs courants comme Google Chrome sur macOS
Ce comportement s’accompagne d’une rotation d’adresses IP et de fournisseurs réseau (ASNs) afin de masquer l’origine réelle des requêtes.
Ces pratiques contreviennent directement aux recommandations de la norme RFC 9309, qui définit les bonnes conduites en matière de crawl. Cloudflare précise que ces crawlers furtifs utilisent également des plages d’adresses IP non répertoriées dans les informations publiques de Perplexity.
Comment Cloudflare a procédé pour ce test ?
Pour confirmer ces comportements, Cloudflare a mis en place plusieurs noms de domaine inédits, jamais indexés par un moteur de recherche et protégés par des directives robots.txt strictes, ainsi que par des règles de pare-feu bloquant explicitement Perplexity. Malgré ces protections, des requêtes adressées à l’IA de Perplexity ont permis de récupérer des informations précises issues de ces domaines. Ces résultats montrent que l’entreprise utilise soit ses crawlers déguisés, soit d’autres sources indirectes pour formuler ses réponses.
Cloudflare note également que lorsque le crawler furtif est bloqué efficacement, Perplexity tente d’agréger des données depuis des sites tiers. Ces réponses se révèlent alors moins précises et dépourvues des détails initiaux, confirmant que le blocage a bien eu un impact.
OpenAI et ChatGPT est beaucoup plus respectueux des directives
En contrepoint, Cloudflare cite OpenAI comme un exemple de bonnes pratiques : transparence des identifiants, respect des directives robots.txt, absence de contournement des blocages réseau et utilisation du nouveau standard Web Bot Auth pour signer les requêtes HTTP. Les tests menés avec ChatGPT montrent que son crawler s’arrête systématiquement lorsqu’il rencontre une interdiction, sans recours à des agents masqués.
Lire l’études complète ici.
Cloudflare propose des mesures de protection renforcées contre le crawl sauvage IA
Face à ces comportements, Cloudflare a intégré de nouvelles règles dans son système de gestion des bots. Ces protections, accessibles même aux utilisateurs gratuits, permettent de bloquer ou de challenger les requêtes suspectes, filtrant ainsi les bots non conformes tout en laissant passer les visiteurs humains.
Les signatures spécifiques des crawlers furtifs de Perplexity ont été ajoutées aux règles de blocage des activités de crawl IA.


