Perplexity se donne beaucoup de mal pour contourner votre fichier robots. Txt

Temps de lecture 5 minutes

Cloudflare a publié cette semaine des observations inquiétantes concernant le moteur de recherche conversationnel Perplexity. Malgré la présence de directives explicites dans les fichiers robots.txt interdisant l’accès à certains contenus, l’entreprise affirme que Perplexity parvient à les récupérer en utilisant des méthodes furtives. Une situation qui soulève des questions de confiance et d’éthique dans l’écosystème web.

Perplexity contourne les directives robots.txt en utilisant des techniques furtives et des agents générés.
Il tourne souvent via des adresses IP changeantes, ce qui contrevient aux recommandations standards.
Cloudflare a testé ces comportements sur des domaines protégés et confirmés l’utilisation de crawlers déguisés.
En comparaison, OpenAI respecte mieux les directives, ne faisant pas de contournements ni d’usurpations.

Perplexity utilise des techniques BlackHat pour crawler le web

Selon Cloudflare, Perplexity adopte une double approche pour accéder à des contenus bloqués :

d’abord, via ses agents utilisateurs officiels (PerplexityBot et Perplexity-User)
puis, en cas de blocage, via des user agents génériques imitant des navigateurs courants comme Google Chrome sur macOS

Ce comportement s’accompagne d’une rotation d’adresses IP et de fournisseurs réseau (ASNs) afin de masquer l’origine réelle des requêtes.

Ces pratiques contreviennent directement aux recommandations de la norme RFC 9309, qui définit les bonnes conduites en matière de crawl. Cloudflare précise que ces crawlers furtifs utilisent également des plages d’adresses IP non répertoriées dans les informations publiques de Perplexity.

Comment Cloudflare a procédé pour ce test ?

Pour confirmer ces comportements, Cloudflare a mis en place plusieurs noms de domaine inédits, jamais indexés par un moteur de recherche et protégés par des directives robots.txt strictes, ainsi que par des règles de pare-feu bloquant explicitement Perplexity. Malgré ces protections, des requêtes adressées à l’IA de Perplexity ont permis de récupérer des informations précises issues de ces domaines. Ces résultats montrent que l’entreprise utilise soit ses crawlers déguisés, soit d’autres sources indirectes pour formuler ses réponses.

Cloudflare note également que lorsque le crawler furtif est bloqué efficacement, Perplexity tente d’agréger des données depuis des sites tiers. Ces réponses se révèlent alors moins précises et dépourvues des détails initiaux, confirmant que le blocage a bien eu un impact.

OpenAI et ChatGPT est beaucoup plus respectueux des directives

En contrepoint, Cloudflare cite OpenAI comme un exemple de bonnes pratiques : transparence des identifiants, respect des directives robots.txt, absence de contournement des blocages réseau et utilisation du nouveau standard Web Bot Auth pour signer les requêtes HTTP. Les tests menés avec ChatGPT montrent que son crawler s’arrête systématiquement lorsqu’il rencontre une interdiction, sans recours à des agents masqués.

Lire l’études complète ici.

Cloudflare propose des mesures de protection renforcées contre le crawl sauvage IA

Face à ces comportements, Cloudflare a intégré de nouvelles règles dans son système de gestion des bots. Ces protections, accessibles même aux utilisateurs gratuits, permettent de bloquer ou de challenger les requêtes suspectes, filtrant ainsi les bots non conformes tout en laissant passer les visiteurs humains.

Les signatures spécifiques des crawlers furtifs de Perplexity ont été ajoutées aux règles de blocage des activités de crawl IA.

0 0 votes

Noter cet article

Fabien Elharrar

Diplômé de l'ENSAM ParisTech et du MBA de l'ESSEC en Marketing, je suis consultant en IA, Marketing et SEO, au service des petites comme des grandes entreprises.

S’abonner

0 Commentaires

Le plus ancien

Le plus récent Le plus populaire

Commentaires en ligne

Afficher tous les commentaires

Perplexity utilise des techniques BlackHat pour crawler le web

Comment Cloudflare a procédé pour ce test ?

OpenAI et ChatGPT est beaucoup plus respectueux des directives

Cloudflare propose des mesures de protection renforcées contre le crawl sauvage IA

Fabien Elharrar

Pour aller plus loin