Technique

robots.txt et IA : les erreurs qui rendent votre site invisible

12 mars 2026 6 min de lecture

Un fichier de quelques lignes, souvent créé une seule fois et jamais relu. Le robots.txt est pourtant le premier filtre entre votre site et les crawlers qui alimentent les IA génératives. Si ce fichier est mal configuré, ChatGPT, Perplexity et les AI Overviews de Google ne verront jamais votre contenu. Vous serez invisible, sans le savoir.

Comment fonctionne le robots.txt pour les IA

Le robots.txt est un fichier texte placé à la racine de votre site (example.com/robots.txt) qui indique aux robots d'indexation quelles pages ils peuvent ou ne peuvent pas explorer. Son fonctionnement repose sur un principe simple : vous déclarez un User-agent (le nom du bot) suivi de règles Allow ou Disallow pour les chemins concernés.

Historiquement, ce fichier servait à guider Googlebot et Bingbot. Mais depuis 2023, une nouvelle génération de crawlers est apparue. OpenAI a lancé GPTBot pour alimenter ChatGPT. Anthropic utilise ClaudeBot. Perplexity envoie PerplexityBot. Meta déploie Meta-ExternalAgent. Google lui-même a ajouté Google-Extended, un crawler dédié à l'entraînement de ses modèles IA, distinct de Googlebot.

Ces bots respectent le robots.txt. Ce qui signifie que si vous les bloquez, volontairement ou par accident, votre contenu disparaît de leurs bases de connaissances.

Les 3 erreurs les plus fréquentes

Le Disallow global. C'est l'erreur la plus radicale et la plus courante. Un bloc User-agent: * suivi de Disallow: / bloque tous les robots sans exception. Certains CMS génèrent cette configuration par défaut en mode "maintenance" ou "pré-lancement", et personne ne pense à la retirer une fois le site en production. Résultat : ni Google, ni les IA ne peuvent accéder au contenu.

L'ignorance des nouveaux bots. Beaucoup de développeurs connaissent Googlebot mais n'ont jamais entendu parler de GPTBot ou de ClaudeBot. Ils ne pensent pas à vérifier si leur robots.txt bloque ces crawlers, soit explicitement, soit via une règle générique trop large. Un site peut parfaitement être indexé par Google tout en étant complètement invisible pour les IA génératives.

Les plugins de sécurité trop agressifs. Sur WordPress, Drupal ou d'autres CMS, les extensions de sécurité ajoutent souvent des règles robots.txt automatiques pour bloquer les "bots suspects". Or, GPTBot, ClaudeBot et PerplexityBot sont relativement récents et figurent fréquemment dans les listes de bots bloqués par ces plugins. Vérifiez les règles générées automatiquement par vos extensions.

Les 30+ crawlers IA à connaître

L'écosystème des crawlers IA a explosé. Voici les principaux bots actifs en 2026, regroupés par catégorie.

Crawlers des grands modèles : GPTBot (OpenAI / ChatGPT), OAI-SearchBot (OpenAI Search), ClaudeBot (Anthropic / Claude), Google-Extended (Google / Gemini), PerplexityBot (Perplexity), Meta-ExternalAgent (Meta / Llama), Bytespider (ByteDance / Doubao), Applebot-Extended (Apple Intelligence), cohere-ai (Cohere).

Crawlers de moteurs de recherche IA : YouBot (You.com), Phind (Phind.com), BraveBot (Brave Search AI), Exabot (Exa.ai).

Crawlers d'entraînement et de données : CCBot (Common Crawl), DataForSeoBot, Diffbot, Omgili, PetalBot (Huawei), Kangaroo Bot, Timpibot, Webz.io, img2dataset, Sidetrade.

Crawlers d'entreprises tech : FacebookBot (Meta), Amazonbot (Amazon / Alexa), anthropic-ai, Friendlycrawler (Cloudflare), ISSCyberRiskCrawler, Seekport.

Cette liste continue de s'allonger. Chaque mois, de nouveaux bots apparaissent. Un robots.txt qui ne les prend pas en compte risque de bloquer des sources de trafic IA majeures.

Bloquer les scrapers sans bloquer les IA

La question légitime est : faut-il tout autoriser ? Non. La stratégie optimale consiste à distinguer trois catégories de bots. Les crawlers de recherche (Googlebot, Bingbot) doivent toujours être autorisés. Les crawlers IA de consultation (GPTBot, ClaudeBot, PerplexityBot) doivent aussi être autorisés si vous souhaitez être cité dans les réponses IA. Les crawlers d'entraînement (Google-Extended, CCBot) peuvent être bloqués si vous ne souhaitez pas que votre contenu serve à entraîner des modèles.

La distinction est importante. Bloquer GPTBot empêche ChatGPT de citer votre site dans ses réponses en temps réel. Bloquer Google-Extended empêche Google d'utiliser votre contenu pour entraîner Gemini, mais n'affecte pas votre indexation classique ni les AI Overviews (qui utilisent Googlebot).

La configuration recommandée : autorisez User-agent: * avec les restrictions nécessaires pour vos pages privées, puis bloquez individuellement les crawlers d'entraînement si vous le souhaitez.

L'impact immédiat d'une correction

Corriger un robots.txt mal configuré produit des résultats rapides. Les crawlers IA passent régulièrement, souvent plusieurs fois par semaine pour les sites actifs. Une fois le blocage levé, votre contenu devient accessible aux IA en quelques jours. Les sites qui corrigent un Disallow global constatent généralement une augmentation de leurs citations IA dans les deux semaines suivantes.

C'est l'une des corrections GEO les plus simples et les plus rentables. Pas de refonte de contenu, pas de nouveau balisage, pas de travail éditorial. Juste quelques lignes à modifier dans un fichier texte. Encore faut-il savoir que le problème existe.

Votre robots.txt bloque-t-il les IA ?

Analyse gratuite de votre robots.txt et de vos 30+ crawlers IA en 60 secondes.

Tester mon robots.txt →