Guide GEO

robots.txt : la porte d'entree des IA vers votre site

Le robots.txt existe depuis 1994. Mais avec l'arrivee des crawlers IA, son role a fondamentalement change. Un mauvais robots.txt peut rendre votre site completement invisible pour ChatGPT, Claude et Perplexity.

Votre site vu par les crawlers IA

robots.txt restrictif
GPTBot arriveVeut lire vos pages
Disallow: /Acces refuse
ResultatChatGPT ne vous cite jamais
robots.txt optimise GEO
GPTBot arriveVeut lire vos pages
Allow: /Acces autorise
ResultatVotre site est lu et cite par l'IA
30+ crawlers IAGPTBot, ClaudeBot, PerplexityBot, Grok...
1 fichier de controleA la racine : /robots.txt
Un mauvais robots.txt = invisible pour les IA.Un bon robots.txt = la porte ouverte vers les reponses de ChatGPT, Claude et Perplexity.

Qu'est-ce que robots.txt ?

Le fichier robots.txt est un fichier texte place a la racine de votre site (votresite.com/robots.txt) qui indique aux robots d'exploration (crawlers) quelles pages ils ont le droit de visiter et lesquelles sont interdites.

C'est le tout premier fichier qu'un crawler consulte avant d'explorer votre site. S'il y trouve une interdiction, il fait demi-tour sans meme lire vos pages.

Le protocole est standardise (RFC 9309) et respecte par tous les grands moteurs de recherche et agents IA.

Les nouveaux crawlers IA

En plus de Googlebot, votre robots.txt doit maintenant gerer une nouvelle generation de crawlers :

GPTBot
Crawler d'OpenAI. Alimente les reponses de ChatGPT et les AI Overviews.
ClaudeBot
Crawler d'Anthropic. Collecte les donnees pour Claude et ses fonctionnalites de recherche web.
PerplexityBot
Crawler de Perplexity AI. Utilise pour generer des reponses sourcees en temps reel.
Google-Extended
Crawler de Google dedie a l'entrainement IA et aux AI Overviews (distinct de Googlebot).

L'erreur qui rend votre site invisible

Beaucoup de sites utilisent un robots.txt trop restrictif, souvent herite d'une epoque ou bloquer les bots etait la norme de securite :

# Configuration DANGEREUSE pour le GEO User-agent: * Disallow: / # Ceci bloque TOUS les crawlers, y compris # GPTBot, ClaudeBot, PerplexityBot. # Votre site devient invisible pour les IA.

D'autres bloquent specifiquement les crawlers IA sans realiser l'impact :

# Blocage specifique des IA User-agent: GPTBot Disallow: / User-agent: ClaudeBot Disallow: / # Resultat : Google vous indexe, mais # ChatGPT et Claude ne vous citent jamais.

Configuration recommandee

Un robots.txt optimise pour le GEO autorise explicitement les crawlers IA tout en protegeant les zones sensibles :

# Autoriser tous les crawlers IA User-agent: GPTBot Allow: / User-agent: ClaudeBot Allow: / User-agent: PerplexityBot Allow: / User-agent: Google-Extended Allow: / # Bloquer uniquement les zones sensibles User-agent: * Disallow: /admin/ Disallow: /api/ Disallow: /compte/ # Pointer vers le sitemap et llms.txt Sitemap: https://votresite.com/sitemap.xml

L'ordre des regles compte : les regles specifiques (par user-agent) priment sur les regles generiques.

Ce que Geoptim analyse

Lors de l'audit GEO, Geoptim verifie automatiquement votre robots.txt :

Le score robots.txt contribue a votre note GEO globale sur 25 points. Un robots.txt manquant ou bloquant les IA fait chuter cette note a zero.

Votre robots.txt bloque-t-il les IA ?

Analyse gratuite en 60 secondes. Decouvrez si les crawlers IA peuvent acceder a votre site.

Analyser mon site →