Guide GEO
robots.txt : la porte d'entree des IA vers votre site
Le robots.txt existe depuis 1994. Mais avec l'arrivee des crawlers IA, son role a fondamentalement change. Un mauvais robots.txt peut rendre votre site completement invisible pour ChatGPT, Claude et Perplexity.
Votre site vu par les crawlers IA
robots.txt restrictif
GPTBot arriveVeut lire vos pages
↓
Disallow: /Acces refuse
↓
ResultatChatGPT ne vous cite jamais
robots.txt optimise GEO
GPTBot arriveVeut lire vos pages
↓
Allow: /Acces autorise
↓
ResultatVotre site est lu et cite par l'IA
30+ crawlers IAGPTBot, ClaudeBot, PerplexityBot, Grok...
1 fichier de controleA la racine : /robots.txt
Un mauvais robots.txt = invisible pour les IA.Un bon robots.txt = la porte ouverte vers les reponses de ChatGPT, Claude et Perplexity.
Qu'est-ce que robots.txt ?
Le fichier robots.txt est un fichier texte place a la racine de votre site (votresite.com/robots.txt) qui indique aux robots d'exploration (crawlers) quelles pages ils ont le droit de visiter et lesquelles sont interdites.
C'est le tout premier fichier qu'un crawler consulte avant d'explorer votre site. S'il y trouve une interdiction, il fait demi-tour sans meme lire vos pages.
Le protocole est standardise (RFC 9309) et respecte par tous les grands moteurs de recherche et agents IA.
Les nouveaux crawlers IA
En plus de Googlebot, votre robots.txt doit maintenant gerer une nouvelle generation de crawlers :
GPTBot
Crawler d'OpenAI. Alimente les reponses de ChatGPT et les AI Overviews.
ClaudeBot
Crawler d'Anthropic. Collecte les donnees pour Claude et ses fonctionnalites de recherche web.
PerplexityBot
Crawler de Perplexity AI. Utilise pour generer des reponses sourcees en temps reel.
Google-Extended
Crawler de Google dedie a l'entrainement IA et aux AI Overviews (distinct de Googlebot).
L'erreur qui rend votre site invisible
Beaucoup de sites utilisent un robots.txt trop restrictif, souvent herite d'une epoque ou bloquer les bots etait la norme de securite :
User-agent: *
Disallow: /
D'autres bloquent specifiquement les crawlers IA sans realiser l'impact :
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
Configuration recommandee
Un robots.txt optimise pour le GEO autorise explicitement les crawlers IA tout en protegeant les zones sensibles :
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: *
Disallow: /admin/
Disallow: /api/
Disallow: /compte/
Sitemap: https://votresite.com/sitemap.xml
L'ordre des regles compte : les regles specifiques (par user-agent) priment sur les regles generiques.
Ce que Geoptim analyse
Lors de l'audit GEO, Geoptim verifie automatiquement votre robots.txt :
- Presence et accessibilite du fichier robots.txt
- Regles pour chaque crawler IA (GPTBot, ClaudeBot, PerplexityBot)
- Detection des blocages involontaires (
Disallow: / global)
- Presence d'une reference au sitemap
Le score robots.txt contribue a votre note GEO globale sur 25 points. Un robots.txt manquant ou bloquant les IA fait chuter cette note a zero.
Votre robots.txt bloque-t-il les IA ?
Analyse gratuite en 60 secondes. Decouvrez si les crawlers IA peuvent acceder a votre site.
Analyser mon site →