Pourquoi votre robots.txt détermine votre visibilité IA
Le fichier robots.txt indique aux crawlers (Google, Bing, ChatGPT…) ce qu'ils peuvent ou non explorer sur votre site. C'est le tout premier fichier qu'un bot IA lit avant de toucher votre contenu. S'il dit « non », votre site ne sera jamais indexé par cette IA, peu importe la qualité de votre contenu.
Or, en 2026, la liste des bots IA s'est étendue rapidement. À chaque ajout de nouveau bot (GPTBot, ChatGPT-User, OAI-SearchBot, ClaudeBot, PerplexityBot, Google-Extended, CCBot…), des milliers de sites se retrouvent involontairement bloqués parce que leur robots.txt n'a pas été mis à jour.
D'après nos audits, plus de 60 % des PME françaises ont aujourd'hui un robots.txt qui bloque au moins un crawler IA majeur, sans que l'équipe ne le sache. Ce guide vous donne tout pour reprendre le contrôle.
Les 9 bots IA à connaître absolument
Voici la liste à jour des principaux bots IA, leur opérateur, leur usage et l'impact d'un blocage :
| User-agent | Opérateur | Usage |
|---|---|---|
GPTBot | OpenAI | Entraînement des modèles GPT Bloquer = votre contenu ne sera pas dans les futurs ChatGPT. Autoriser = vous nourrissez l'IA. |
ChatGPT-User | OpenAI | Sessions ChatGPT en temps réel (browsing) Doit être autorisé pour être cité par ChatGPT en mode browsing. |
OAI-SearchBot | OpenAI | ChatGPT Search (équivalent moteur de recherche) À autoriser pour apparaître dans ChatGPT Search. |
ClaudeBot | Anthropic | Crawl pour Claude (entraînement et recherche) Bloquer = invisible pour Claude. Autoriser = présent dans Claude. |
anthropic-ai | Anthropic | Ancien user-agent d'Anthropic (encore utilisé) À autoriser conjointement avec ClaudeBot. |
PerplexityBot | Perplexity | Recherche temps réel pour Perplexity Indispensable pour apparaître dans Perplexity. |
Google-Extended | Entraînement Gemini et AI Overviews À autoriser pour être cité par Gemini et les AI Overviews Google. | |
Bingbot | Microsoft | Bing (utilisé par Copilot) Doit être autorisé pour Bing et Microsoft Copilot. |
CCBot | Common Crawl | Crawl public, source d'entraînement de la plupart des LLMs Bloquer = invisible pour de nombreux LLMs open source. |
Template 1 : robots.txt qui maximise la visibilité IA
Pour une PME, une agence ou un SaaS qui veut être recommandé par les IA, voici la configuration optimale. Tous les bots IA majeurs sont autorisés.
# robots.txt — autorisation complète des IA (recommandé pour la visibilité) # Mise à jour : 2026-05 User-agent: * Allow: / # OpenAI / ChatGPT User-agent: GPTBot Allow: / User-agent: ChatGPT-User Allow: / User-agent: OAI-SearchBot Allow: / # Anthropic / Claude User-agent: ClaudeBot Allow: / User-agent: anthropic-ai Allow: / # Perplexity User-agent: PerplexityBot Allow: / # Google (utilisé par Gemini et les AI Overviews) User-agent: Google-Extended Allow: / User-agent: Googlebot Allow: / # Microsoft Bing (utilisé par Copilot) User-agent: Bingbot Allow: / # Common Crawl (source d'entraînement principale) User-agent: CCBot Allow: / # Sitemap Sitemap: https://www.votre-site.fr/sitemap.xml
Template 2 : autoriser la recherche, refuser l'entraînement
Pour les créateurs de contenu, presse et éditeurs qui veulent être cités sans nourrir l'entraînement des modèles. Approche équilibrée recommandée pour les acteurs de l'édition et du journalisme.
# robots.txt — autoriser le crawl/recherche temps réel, refuser l'entraînement # (équilibre visibilité IA vs propriété intellectuelle) User-agent: * Allow: / # Autoriser la recherche temps réel (vous serez cité par les IA) User-agent: ChatGPT-User Allow: / User-agent: OAI-SearchBot Allow: / User-agent: PerplexityBot Allow: / # Refuser l'entraînement (votre contenu ne sera pas utilisé pour entraîner les modèles) User-agent: GPTBot Disallow: / User-agent: ClaudeBot Disallow: / User-agent: Google-Extended Disallow: / User-agent: CCBot Disallow: / Sitemap: https://www.votre-site.fr/sitemap.xml
5 erreurs très courantes (et comment les corriger)
01Bloquer tous les bots par défaut
Un User-agent: * Disallow: / au début bloque tout. Vous pensez n'ouvrir qu'à Google ? Vous êtes invisible partout ailleurs, y compris pour ChatGPT.
02Ne pas connaître les noms exacts des bots
ClaudeBot, pas Claude-Bot. GPTBot, pas Chat-GPTBot. Une faute de frappe et le bot n'est pas reconnu, donc soumis à la règle générique.
03Oublier Google-Extended
Beaucoup pensent que Googlebot suffit. En réalité, l'entraînement Gemini passe par Google-Extended qui doit être autorisé séparément.
04Plugins SEO qui ajoutent des Disallow
Certains plugins WordPress bloquent automatiquement les bots IA sans le dire clairement. Vérifiez votre robots.txt manuellement après chaque mise à jour.
05Sitemap absent du robots.txt
Sans ligne Sitemap:, les crawlers IA passent du temps à explorer plutôt qu'à indexer. Toujours ajouter une ligne Sitemap: à la fin.
Comment vérifier que votre robots.txt fonctionne
Voici les vérifications à faire après chaque modification :
- 1.Ouvrez
https://votre-site.fr/robots.txtdans un navigateur. Le fichier doit s'afficher en texte brut. - 2.Utilisez le testeur officiel Google : Search Console > robots.txt.
- 3.Vérifiez avec notre Audit AI-Friendly Fibroweb : il analyse spécifiquement les autorisations bots IA.
- 4.Attendez 7 à 14 jours après modification pour que les LLMs propagent les changements dans leur index.
Questions fréquentes
Faut-il autoriser ou bloquer GPTBot ?
Si vous voulez être cité par ChatGPT à long terme, autorisez. Si vous voulez protéger absolument votre contenu de l'entraînement IA (presse, créateurs de contenu original), bloquez. Pour la grande majorité des PME et agences, autoriser apporte plus de visibilité que de risques.
Quelle différence entre GPTBot et ChatGPT-User ?
GPTBot collecte du contenu pour entraîner les futurs modèles GPT (à long terme). ChatGPT-User est invoqué en temps réel quand un utilisateur ChatGPT demande à browser un site. Vous pouvez bloquer GPTBot tout en autorisant ChatGPT-User, pour être cité sans nourrir l'entraînement.
Mon robots.txt actuel bloque des bots, comment savoir si c'est volontaire ?
Lisez attentivement votre robots.txt ligne par ligne. Les blocages les plus fréquents viennent : (a) d'un User-agent: * Disallow: / hérité du staging, (b) d'un plugin SEO mal configuré, (c) d'un thème WordPress avec configuration agressive. Si rien d'explicite ne le justifie, retirez les blocages.
robots.txt fonctionne-t-il vraiment ou les bots IA ignorent-ils ?
Les principaux bots (GPTBot, ClaudeBot, PerplexityBot, Google-Extended) respectent robots.txt. C'est explicitement documenté par OpenAI, Anthropic et Google. Les bots non identifiés ou mal-intentionnés peuvent l'ignorer, mais pour les LLMs majeurs c'est respecté.
Combien de temps avant que les changements de robots.txt soient pris en compte ?
Les bots IA majeurs recrawl robots.txt toutes les 24 à 72 heures. Comptez 1 semaine pour qu'une modification soit pleinement effective sur tous les LLMs.
Différence entre Disallow: et Allow:
Disallow: / bloque tout, Disallow: /private bloque uniquement /private. Allow: / autorise tout, et prime sur les Disallow plus restrictifs si la directive est plus spécifique. La règle générale : être explicite plutôt qu'implicite, surtout avec les bots IA récents.
Votre robots.txt est-il correctement configuré ?
Notre outil gratuit vérifie votre robots.txt et 22 autres signaux que les IA regardent. Score 0-100 et recommandations actionnables en 5 secondes.