Toutes les ressources
27 mai 2026 11 min de lecture Guide GEO

robots.txt et bots IA : le guide complet 2026

Liste complète des crawlers IA (GPTBot, ClaudeBot, PerplexityBot, Google-Extended, CCBot…), templates prêts à copier et erreurs courantes. Pour devenir visible sur ChatGPT, Perplexity et Gemini.

TB
Tristan Berguer
Fondateur Fibroweb · spécialiste GEO et SEO

Pourquoi votre robots.txt détermine votre visibilité IA

Le fichier robots.txt indique aux crawlers (Google, Bing, ChatGPT…) ce qu'ils peuvent ou non explorer sur votre site. C'est le tout premier fichier qu'un bot IA lit avant de toucher votre contenu. S'il dit « non », votre site ne sera jamais indexé par cette IA, peu importe la qualité de votre contenu.

Or, en 2026, la liste des bots IA s'est étendue rapidement. À chaque ajout de nouveau bot (GPTBot, ChatGPT-User, OAI-SearchBot, ClaudeBot, PerplexityBot, Google-Extended, CCBot…), des milliers de sites se retrouvent involontairement bloqués parce que leur robots.txt n'a pas été mis à jour.

D'après nos audits, plus de 60 % des PME françaises ont aujourd'hui un robots.txt qui bloque au moins un crawler IA majeur, sans que l'équipe ne le sache. Ce guide vous donne tout pour reprendre le contrôle.

Les 9 bots IA à connaître absolument

Voici la liste à jour des principaux bots IA, leur opérateur, leur usage et l'impact d'un blocage :

User-agentOpérateurUsage
GPTBotOpenAI
Entraînement des modèles GPT
Bloquer = votre contenu ne sera pas dans les futurs ChatGPT. Autoriser = vous nourrissez l'IA.
ChatGPT-UserOpenAI
Sessions ChatGPT en temps réel (browsing)
Doit être autorisé pour être cité par ChatGPT en mode browsing.
OAI-SearchBotOpenAI
ChatGPT Search (équivalent moteur de recherche)
À autoriser pour apparaître dans ChatGPT Search.
ClaudeBotAnthropic
Crawl pour Claude (entraînement et recherche)
Bloquer = invisible pour Claude. Autoriser = présent dans Claude.
anthropic-aiAnthropic
Ancien user-agent d'Anthropic (encore utilisé)
À autoriser conjointement avec ClaudeBot.
PerplexityBotPerplexity
Recherche temps réel pour Perplexity
Indispensable pour apparaître dans Perplexity.
Google-ExtendedGoogle
Entraînement Gemini et AI Overviews
À autoriser pour être cité par Gemini et les AI Overviews Google.
BingbotMicrosoft
Bing (utilisé par Copilot)
Doit être autorisé pour Bing et Microsoft Copilot.
CCBotCommon Crawl
Crawl public, source d'entraînement de la plupart des LLMs
Bloquer = invisible pour de nombreux LLMs open source.

Template 1 : robots.txt qui maximise la visibilité IA

Pour une PME, une agence ou un SaaS qui veut être recommandé par les IA, voici la configuration optimale. Tous les bots IA majeurs sont autorisés.

# robots.txt — autorisation complète des IA (recommandé pour la visibilité)
# Mise à jour : 2026-05

User-agent: *
Allow: /

# OpenAI / ChatGPT
User-agent: GPTBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: OAI-SearchBot
Allow: /

# Anthropic / Claude
User-agent: ClaudeBot
Allow: /

User-agent: anthropic-ai
Allow: /

# Perplexity
User-agent: PerplexityBot
Allow: /

# Google (utilisé par Gemini et les AI Overviews)
User-agent: Google-Extended
Allow: /

User-agent: Googlebot
Allow: /

# Microsoft Bing (utilisé par Copilot)
User-agent: Bingbot
Allow: /

# Common Crawl (source d'entraînement principale)
User-agent: CCBot
Allow: /

# Sitemap
Sitemap: https://www.votre-site.fr/sitemap.xml

Template 2 : autoriser la recherche, refuser l'entraînement

Pour les créateurs de contenu, presse et éditeurs qui veulent être cités sans nourrir l'entraînement des modèles. Approche équilibrée recommandée pour les acteurs de l'édition et du journalisme.

# robots.txt — autoriser le crawl/recherche temps réel, refuser l'entraînement
# (équilibre visibilité IA vs propriété intellectuelle)

User-agent: *
Allow: /

# Autoriser la recherche temps réel (vous serez cité par les IA)
User-agent: ChatGPT-User
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

# Refuser l'entraînement (votre contenu ne sera pas utilisé pour entraîner les modèles)
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

Sitemap: https://www.votre-site.fr/sitemap.xml

5 erreurs très courantes (et comment les corriger)

01Bloquer tous les bots par défaut

Un User-agent: * Disallow: / au début bloque tout. Vous pensez n'ouvrir qu'à Google ? Vous êtes invisible partout ailleurs, y compris pour ChatGPT.

02Ne pas connaître les noms exacts des bots

ClaudeBot, pas Claude-Bot. GPTBot, pas Chat-GPTBot. Une faute de frappe et le bot n'est pas reconnu, donc soumis à la règle générique.

03Oublier Google-Extended

Beaucoup pensent que Googlebot suffit. En réalité, l'entraînement Gemini passe par Google-Extended qui doit être autorisé séparément.

04Plugins SEO qui ajoutent des Disallow

Certains plugins WordPress bloquent automatiquement les bots IA sans le dire clairement. Vérifiez votre robots.txt manuellement après chaque mise à jour.

05Sitemap absent du robots.txt

Sans ligne Sitemap:, les crawlers IA passent du temps à explorer plutôt qu'à indexer. Toujours ajouter une ligne Sitemap: à la fin.

Comment vérifier que votre robots.txt fonctionne

Voici les vérifications à faire après chaque modification :

  1. 1.Ouvrez https://votre-site.fr/robots.txt dans un navigateur. Le fichier doit s'afficher en texte brut.
  2. 2.Utilisez le testeur officiel Google : Search Console > robots.txt.
  3. 3.Vérifiez avec notre Audit AI-Friendly Fibroweb : il analyse spécifiquement les autorisations bots IA.
  4. 4.Attendez 7 à 14 jours après modification pour que les LLMs propagent les changements dans leur index.

Questions fréquentes

Faut-il autoriser ou bloquer GPTBot ?

Si vous voulez être cité par ChatGPT à long terme, autorisez. Si vous voulez protéger absolument votre contenu de l'entraînement IA (presse, créateurs de contenu original), bloquez. Pour la grande majorité des PME et agences, autoriser apporte plus de visibilité que de risques.

Quelle différence entre GPTBot et ChatGPT-User ?

GPTBot collecte du contenu pour entraîner les futurs modèles GPT (à long terme). ChatGPT-User est invoqué en temps réel quand un utilisateur ChatGPT demande à browser un site. Vous pouvez bloquer GPTBot tout en autorisant ChatGPT-User, pour être cité sans nourrir l'entraînement.

Mon robots.txt actuel bloque des bots, comment savoir si c'est volontaire ?

Lisez attentivement votre robots.txt ligne par ligne. Les blocages les plus fréquents viennent : (a) d'un User-agent: * Disallow: / hérité du staging, (b) d'un plugin SEO mal configuré, (c) d'un thème WordPress avec configuration agressive. Si rien d'explicite ne le justifie, retirez les blocages.

robots.txt fonctionne-t-il vraiment ou les bots IA ignorent-ils ?

Les principaux bots (GPTBot, ClaudeBot, PerplexityBot, Google-Extended) respectent robots.txt. C'est explicitement documenté par OpenAI, Anthropic et Google. Les bots non identifiés ou mal-intentionnés peuvent l'ignorer, mais pour les LLMs majeurs c'est respecté.

Combien de temps avant que les changements de robots.txt soient pris en compte ?

Les bots IA majeurs recrawl robots.txt toutes les 24 à 72 heures. Comptez 1 semaine pour qu'une modification soit pleinement effective sur tous les LLMs.

Différence entre Disallow: et Allow:

Disallow: / bloque tout, Disallow: /private bloque uniquement /private. Allow: / autorise tout, et prime sur les Disallow plus restrictifs si la directive est plus spécifique. La règle générale : être explicite plutôt qu'implicite, surtout avec les bots IA récents.

Votre robots.txt est-il correctement configuré ?

Notre outil gratuit vérifie votre robots.txt et 22 autres signaux que les IA regardent. Score 0-100 et recommandations actionnables en 5 secondes.