Comment savoir si votre site est cité par les LLM : méthode GEO avec Google Analytics et MCP

En 2026, être référencé sur Google ne suffit plus. Les Large Language Models — ChatGPT, Claude, Gemini, Perplexity — sont devenus des canaux d’acquisition à part entière. Mais comment savoir si ces IA visitent réellement votre site, indexent vos contenus et vous citent dans leurs réponses ? La réponse se cache dans vos données analytics. En croisant les villes d’origine du trafic avec les localisations des datacenters des grands acteurs de l’IA, vous pouvez identifier précisément quels LLM crawlent votre site. En connectant vos métriques à un serveur MCP, vous transformez cette analyse ponctuelle en monitoring permanent. Et en identifiant les sources que chaque IA privilégie — Google, LinkedIn, Reddit, YouTube — vous adaptez votre stratégie de communication pour maximiser vos chances d’être cité. Cet article détaille la méthode complète en 6 étapes opérationnelles.

Pourquoi les visites des LLM sont invisibles dans vos analytics classiques

Les crawlers des LLM ne se comportent pas comme des visiteurs humains. Ils n’exécutent généralement pas le JavaScript, ce qui signifie que GA4 ne les détecte pas tous. Selon les données publiées par Vercel, GPTBot d’OpenAI a généré 569 millions de requêtes en un mois sur leur réseau et ClaudeBot d’Anthropic 370 millions — soit environ 20 % du volume de Googlebot. Pourtant, ces visites sont largement absentes des tableaux de bord analytics standards.

Le problème est triple. Les crawlers IA qui n’exécutent pas JS sont totalement invisibles dans GA4. Ceux qui utilisent des navigateurs headless (comme ChatGPT-User ou Claude-User) apparaissent comme trafic « Direct » ou « Organic ». Et GA4 ne dispose pas de canal natif « AI Traffic », ce qui mélange les signaux avec le reste du trafic.

Seuls les bots qui passent un referrer identifiable (chat.openai.com, claude.ai, perplexity.ai) apparaissent correctement dans les rapports. Or, selon Cloudflare, pour chaque referral qu’Anthropic renvoie vers un site, ses crawlers ont déjà visité environ 38 000 pages. Le ratio d’OpenAI est d’environ 400:1. Plus de 51 % du trafic internet mondial est désormais généré par des bots, dont une part croissante provient des LLM.

Type de crawlerExemplesExécute JS ?Visible GA4 ?Apparaît comme
Crawler d’entraînementGPTBot, ClaudeBot, Google-ExtendedNonNonInvisible (logs serveur uniquement)
Fetcher utilisateurChatGPT-User, Claude-User, Perplexity-UserOui (headless)PartiellementDirect / Referral
Crawler de rechercheOAI-SearchBot, Claude-SearchBotNonNonInvisible

C’est pourquoi une méthode alternative est indispensable : le mapping ville-datacenter. Pour comprendre les fondamentaux de cette nouvelle discipline, consultez notre guide complet du GEO en 2026.

La méthode du mapping ville-datacenter : identifier les crawlers IA dans GA4

L’idée est simple mais puissante : les datacenters où tournent les LLM sont situés dans des villes spécifiques. Quand vous observez du trafic provenant de Boardman (Oregon), Flint Hill (Virginie) ou Des Moines (Iowa) dans Google Analytics, ce ne sont pas des humains qui naviguent — ce sont des serveurs qui crawlent votre site.

La méthode en 3 étapes

Étape 1 — Extraire le rapport des villes dans GA4. Allez dans Rapports > Données démographiques > Détails démographiques, puis filtrez par « Ville ». Vous pouvez aussi créer une Exploration personnalisée avec la dimension « Ville » et la métrique « Utilisateurs actifs ».

Étape 2 — Croiser les villes avec les datacenters connus. Chaque grande entreprise d’IA opère ses crawlers depuis des datacenters localisés. AWS us-east-1 est en Virginie du Nord (Flint Hill). AWS us-west-2 est à Boardman, Oregon. Les datacenters de Meta sont à Prineville, Fort Worth, Luleå (Suède) et Gallatin. Microsoft Azure opère depuis Des Moines et Altoona. Apple a son datacenter à Forest City (Caroline du Nord). OVH et Scaleway à Toulouse hébergent Mistral AI.

Étape 3 — Attribuer chaque ville à un LLM probable.

VillePaysDatacenterLLM probable
Flint HillUS (Virginie)AWS us-east-1Anthropic (Claude), Perplexity, Cohere
BoardmanUS (Oregon)AWS us-west-2Anthropic, Amazon Titan, Perplexity
PrinevilleUS (Oregon)MetaMeta AI (LLaMA)
Des MoinesUS (Iowa)Microsoft Azure / MetaOpenAI (ChatGPT), Microsoft Copilot
LuleåSuèdeMetaMeta AI (LLaMA)
Fort WorthUS (Texas)MetaMeta AI (LLaMA)
AltoonaUS (Iowa)Microsoft AzureOpenAI, Microsoft Copilot
DublinIrlandeAWS / Google / MicrosoftAnthropic EU, Google Gemini, OpenAI
Forest CityUS (Caroline du Nord)AppleApple Intelligence / Siri
ToulouseFranceOVH / ScalewayMistral AI
ColumbusUS (Ohio)AWS / GoogleGoogle Gemini
GallatinUS (Tennessee)MetaMeta AI (LLaMA)

Ce mapping ne remplace pas l’analyse des logs serveur, mais il offre un indicateur immédiat accessible à tout dirigeant sans compétence technique. Pour approfondir les différences entre SEO classique et optimisation générative, consultez notre analyse GEO vs SEO : ce que l’optimisation générative change pour votre visibilité.

Mesurer le trafic IA : logs serveur, GA4, outils GEO et tests manuels

Identifier que les IA visitent votre site est la première étape. Mais pour agir, il faut quantifier : quel pourcentage de votre trafic provient de chaque LLM ? Et êtes-vous cité dans leurs réponses ? Quatre méthodes complémentaires permettent de répondre avec précision.

Méthode 1 : Les logs serveur — la seule source de vérité à 100 %

GA4 ne capte que les bots qui exécutent JavaScript. Pour voir tous les crawlers IA, il faut accéder aux logs bruts du serveur. Les logs Apache ou Nginx enregistrent chaque requête, y compris le user-agent qui identifie le bot. Voici les commandes essentielles pour un audit immédiat :

grep -Ei "(GPTBot|ClaudeBot|Claude-User|Claude-SearchBot|OAI-SearchBot|ChatGPT-User|PerplexityBot|Perplexity-User|Google-Extended|Applebot-Extended|meta-externalagent)" access.log | wc -l

Cette commande compte toutes les visites IA dans vos logs. Pour un détail par bot, ajoutez un tri par user-agent. Pour un suivi par jour, filtrez par date. Sur OVH, Hostinger ou tout hébergement mutualisé, les logs sont accessibles via le panneau d’administration (fichiers /var/log/apache2/access.log ou /var/log/nginx/access.log).

Point crucial : distinguez les bots d’entraînement des bots de recherche. Un pic de GPTBot signifie qu’OpenAI met à jour son dataset d’entraînement. Un pic de ChatGPT-User signifie que des utilisateurs posent des questions et que votre contenu est récupéré en temps réel pour être cité. C’est le second type qui génère de la visibilité concrète.

Pour une analyse plus poussée, Screaming Frog Log File Analyser importe vos logs et identifie automatiquement les bots IA avec des presets pour GPTBot, ClaudeBot, ChatGPT-User, PerplexityBot et d’autres. Vous visualisez les pages les plus crawlées, les codes de réponse et le comportement de chaque bot. GoAccess et AWStats offrent des dashboards en temps réel. SEO Utils Log File Analyzer classe vos pages par fréquence de crawl IA et signale si vos contenus importants sont ignorés par les bots.

Méthode 2 : Créer un canal « AI Traffic » dans GA4

GA4 ne dispose pas de canal natif pour le trafic IA, mais vous pouvez le créer. Allez dans Administration > Affichage des données > Groupes de canaux > Créer un nouveau groupe de canaux. Ajoutez un canal « AI Referral » avec un filtre regex sur la source de la session couvrant les domaines des principaux assistants IA (chat.openai.com, claude.ai, perplexity.ai, gemini.google.com, copilot.microsoft.com). Croisez ensuite avec la dimension « Ville » dans une Exploration pour isoler le trafic datacenter. Ce n’est pas parfait — beaucoup de trafic IA arrive en « Direct » sans referrer — mais c’est un premier indicateur quantifiable directement dans GA4.

Méthode 3 : Les outils de monitoring GEO

Pour savoir si vous êtes réellement cité dans les réponses IA (pas seulement crawlé), une nouvelle génération de logiciels GEO automatise la surveillance. Otterly.ai suit automatiquement vos mentions de marque et citations de site sur ChatGPT, Google AI Overviews, AI Mode, Gemini, Perplexity et Copilot, avec un audit GEO on-page (25+ facteurs) et un simulateur de crawler IA. Peec AI se distingue par son tracking au niveau du prompt : vous voyez exactement quels prompts déclenchent une mention de votre marque. Siftly offre un monitoring en temps réel avec intelligence concurrentielle et analyse de sentiment. AIclicks se concentre sur le tracking des classements dans les réponses ChatGPT avec regroupement en clusters. Ahrefs Brand Radar surveille la visibilité sur plus de 200 millions de prompts. SE Ranking intègre le suivi IA dans sa plateforme SEO complète. Writesonic combine tracking, audit et génération de contenu optimisé GEO. LLMrefs propose un outil léger basé sur les mots-clés. Et xSeek suit 180+ domaines de citation à travers ChatGPT, Claude, Perplexity, Gemini, Grok et DeepSeek.

Méthode 4 : Le test manuel

Ouvrez ChatGPT, Claude, Perplexity et Gemini. Posez les questions que vos prospects poseraient sur votre secteur. Notez si votre marque est citée, quelles pages sont référencées, et quel sentiment est exprimé. Faites-le en navigation privée pour éviter la personnalisation. Testez 20 à 50 prompts clés et construisez un tableau de suivi mensuel.

MéthodeCe qu’elle mesurePrécisionCoûtDifficulté
Logs serveur (grep, Screaming Frog)100 % des requêtes de chaque bot IA★★★★★GratuitTechnique
GA4 canal AI (regex + villes)Trafic referral IA + trafic datacenter★★★GratuitMoyen
Outils GEO (Otterly, Peec, Siftly)Citations, mentions, part de voix dans les réponses IA★★★★99-530 $/moisFacile
Test manuel (prompts ChatGPT, Claude…)Visibilité qualitative, citation directe★★GratuitFacile

Chez HDVMA, nous intégrons ces quatre méthodes dans notre offre d’accompagnement : analyse des logs serveur, configuration GA4, déploiement des outils de monitoring GEO et tests de visibilité IA systématiques. Notre audit de visibilité IA détaille cette démarche complète. Et pour un premier bilan automatisé, notre audit GEO IA gratuit vous donne un état des lieux en 48 heures.

D’où les LLM tirent leurs citations : Google, LinkedIn, Reddit, YouTube

Comprendre quelles sources alimentent chaque LLM est la clé pour adapter votre stratégie de communication. Chaque plateforme IA a ses propres préférences — et elles sont radicalement différentes. Selon une étude Semrush portant sur 325 000 prompts analysés entre janvier et février 2026, LinkedIn est désormais la deuxième source la plus citée dans les réponses IA, juste derrière Reddit. En moyenne, 11 % des réponses IA référencent une URL LinkedIn.

Chaque LLM a sa personnalité éditoriale

ChatGPT s’appuie massivement sur Wikipedia pour les questions factuelles (7,8 % des citations totales), puis sur Reddit, Amazon, Forbes et LinkedIn. Sur ChatGPT Search, 14,3 % des réponses citent LinkedIn. Pour les requêtes professionnelles, les profils individuels LinkedIn sont cités dans 59 % des cas. Les données de Profound montrent que LinkedIn est passé de la 11ᵉ à la 5ᵉ position des domaines les plus cités par ChatGPT entre novembre 2025 et février 2026.

Google AI Mode et Gemini privilégient les propriétés Google (YouTube, Google Blog) et les contenus structurés issus de LinkedIn, Medium et Quora. Les AI Overviews puisent à 99 % dans le top 10 organique Google. Si vous n’êtes pas classé dans le top 10 Google, vous n’apparaîtrez probablement pas dans les AI Overviews.

Perplexity favorise les contenus communautaires et expérientiels : Reddit représente 24 % des citations en janvier 2026, suivi de YouTube, G2, Yelp et TripAdvisor. 99 % des citations Reddit pointent vers des fils de discussion authentiques, pas vers des profils de marque. Pour les citations LinkedIn, Perplexity cite les Company Pages dans 59 % des cas, à l’inverse de ChatGPT qui privilégie les profils individuels.

Claude affiche le taux de mention de marque le plus élevé (97,3 % selon une étude Spotlight de février 2026) et privilégie les contenus bien structurés, autoritaires et la documentation technique.

SourceChatGPTGoogle AI ModePerplexityClaude
Wikipedia★★★ (7,8 %)★ (2 %)★★
Reddit★★★★★★★★ (24 %)
LinkedIn★★ (14,3 %)★★ (13,5 %)★ (5,3 %)★★
YouTube★★★★★
Votre site (domaine propre)★★★★ (via top 10 Google)★★★
Avis (G2, Yelp, TripAdvisor)★★★

Le point crucial : seulement 11 % des domaines cités par ChatGPT le sont aussi par Perplexity. Optimiser pour un seul LLM revient à être invisible sur les autres. Il faut une stratégie multi-plateforme. Les outils de monitoring GEO comme Otterly.ai, Siftly ou xSeek permettent d’identifier exactement quelles sources sont citées pour vos requêtes cibles et d’adapter votre présence en conséquence. HDVMA intègre cette analyse multi-source dans chaque stratégie GEO pour couvrir l’ensemble de l’écosystème IA. Pour approfondir les mécanismes, consultez notre article sur les habitudes SEO à changer pour être compatible GEO.

Connecter vos métriques à un serveur MCP pour un monitoring permanent

L’analyse ponctuelle est un bon point de départ. Mais pour un suivi continu et automatisé, les serveurs MCP (Model Context Protocol) changent la donne. Un serveur MCP connecte directement votre assistant IA (Claude, Gemini) à vos outils professionnels. Au lieu d’exporter des CSV et de croiser manuellement des données, vous posez une question en langage naturel et l’IA va chercher la réponse dans vos données réelles.

Les serveurs MCP essentiels pour le monitoring GEO

Le Google Analytics 4 MCP (officiel Google) permet d’interroger vos données de trafic, segmenter par ville et identifier les patterns de crawl IA. Le Google Search Console MCP (AminForou, 500+ étoiles GitHub) analyse les requêtes, les positions et les clics directement depuis Claude ou Gemini. Le DataForSEO MCP donne accès aux données SERP, mots-clés et AI Overview via une interface unifiée. Le Semrush MCP ouvre la recherche de mots-clés et la veille concurrentielle directement dans votre conversation IA.

Workflow concret avec MCP

Connectez le serveur GA4 MCP à Claude. Demandez : « Quelles villes génèrent du trafic sur mon site cette semaine ? » Claude extrait les données, identifie les villes de datacenters et signale les crawlers IA. Demandez ensuite : « Compare avec la semaine dernière — y a-t-il de nouveaux crawlers ? » Claude détecte les variations et alerte sur les changements. Ce cycle de 15 à 20 minutes d’export et de reformatage de feuilles de calcul est remplacé par une seule phrase dans une fenêtre de chat.

CritèreAnalyse manuelle GA4Monitoring MCP
Temps par analyse30-60 min30 secondes
Fréquence réaliste1x/moisQuotidien
Détection anomaliesRéactiveProactive
Croisement multi-sourcesComplexeAutomatique
CoûtGratuit (temps humain)20 €/mois (Claude Pro)

Ce monitoring continu transforme une analyse statique en intelligence permanente. Combiné à une stratégie SEO et GEO automatisée, il alimente un cycle d’amélioration continue. HDVMA déploie ces serveurs MCP pour ses clients et configure les workflows de monitoring adaptés à chaque secteur d’activité.

Adapter votre stratégie de communication pour être cité par chaque LLM

Maintenant que vous savez quels LLM visitent votre site et quelles sources ils privilégient, il faut adapter votre stratégie de communication canal par canal. La visibilité IA ne se gagne pas avec une seule action : elle se construit en couvrant simultanément les plateformes que chaque LLM consulte.

Pour être cité par ChatGPT → investissez LinkedIn et votre site. ChatGPT cite les profils LinkedIn individuels dans 59 % des cas pour les requêtes professionnelles. Publiez régulièrement du contenu expert sous votre profil personnel — pas seulement sur la page entreprise. Sur votre site, structurez chaque section comme une réponse autonome avec un heading en format question suivi d’une réponse directe dans les 50 premiers mots. Selon les données analysées, 72,4 % des pages citées par ChatGPT contiennent une réponse courte et directe juste après un titre en format question.

Pour être visible dans Google AI Mode → SEO classique + YouTube. Les AI Overviews de Google puisent à 99 % dans le top 10 organique. Le SEO technique reste donc fondamental. Mais Google AI Mode cite massivement YouTube, LinkedIn et le blog Google. Créez des vidéos YouTube avec transcripts manuels, chapitres descriptifs et titres reprenant les questions exactes de votre audience. Les vidéos YouTube apparaissent désormais dans 16 % des réponses LLM. Pour une création de site web optimisée pour les AI Overviews, le balisage Schema.org et la vitesse de chargement sont déterminants.

Pour apparaître dans Perplexity → Reddit et avis clients. Perplexity tire 24 % de ses citations de Reddit et favorise les plateformes d’avis (G2, Yelp, TripAdvisor). 99 % des citations Reddit pointent vers des fils de discussion authentiques. Participez aux conversations de manière organique dans les subreddits de votre secteur. Sollicitez des avis détaillés sur les plateformes spécialisées.

Pour Claude → contenu structuré et documentation technique. Claude affiche le taux de mention de marque le plus élevé et privilégie les contenus bien structurés, avec données structurées Schema.org, balisage FAQ/HowTo et contenu autoritaire. Assurez-vous que votre fichier robots.txt autorise Claude-User et Claude-SearchBot.

La boucle d’amélioration continue : utilisez les outils de monitoring GEO pour mesurer votre part de voix, identifiez les plateformes où vous êtes absent, adaptez votre plan de publication et mesurez l’impact chaque mois. Le contenu mis à jour dans les 2 derniers mois génère 28 % de citations IA en plus que le contenu plus ancien. Les PME qui adoptent cette boucle gagnent en visibilité IA chaque mois. Et pour transformer cette visibilité en conversions concrètes, un tunnel de vente IA structuré fait toute la différence.

HDVMA accompagne ses clients sur l’ensemble de ces leviers : optimisation de contenu pour chaque LLM, déploiement LinkedIn et YouTube, configuration du balisage technique, monitoring GEO multi-plateforme et stratégie de présence sur les sources de citation tierces. Notre approche couvre tous les secteurs d’activité et s’adapte aux spécificités de chaque marché.

Questions fréquentes sur la visibilité IA et les citations LLM

Comment savoir si ChatGPT visite mon site ?

Vérifiez les villes dans GA4 : Des Moines et Altoona (datacenters Microsoft Azure) correspondent aux crawlers OpenAI. Consultez aussi les logs serveur pour les user-agents GPTBot, OAI-SearchBot et ChatGPT-User. Des outils comme Otterly.ai ou Peec AI automatisent cette surveillance et vous alertent dès qu’un changement significatif est détecté.

Qu’est-ce que le mapping ville-datacenter en SEO ?

C’est la méthode qui consiste à croiser les villes d’origine du trafic dans Google Analytics avec les localisations connues des datacenters IA pour identifier quels LLM crawlent votre site. Flint Hill correspond à Anthropic (Claude), Prineville à Meta AI (LLaMA), Des Moines à OpenAI (ChatGPT), Forest City à Apple Intelligence et Toulouse à Mistral AI.

Quels outils permettent de tester sa visibilité dans les réponses IA ?

Les principales plateformes en 2026 sont Otterly.ai, Peec AI, Siftly, AIclicks, Ahrefs Brand Radar, SE Ranking, Writesonic et LLMrefs. Elles suivent vos mentions de marque et citations de site sur ChatGPT, Gemini, Perplexity, Claude et Google AI Overviews, avec des métriques de part de voix, sentiment et analyse concurrentielle.

D’où les LLM tirent-ils leurs citations ?

Chaque LLM a ses sources préférées. ChatGPT cite massivement Wikipedia (7,8 %) et Reddit. Perplexity favorise Reddit (24 % des citations) et les sites d’avis comme G2 ou Yelp. Google AI Mode privilégie YouTube et LinkedIn. LinkedIn est la deuxième source la plus citée tous LLM confondus en 2026, avec 11 % des réponses IA qui référencent une URL LinkedIn.

Un serveur MCP peut-il se connecter à Google Analytics ?

Oui. Le GA4 MCP officiel de Google connecte vos données Analytics à Claude ou Gemini. Vous pouvez interroger vos données de trafic en langage naturel, segmenter par ville pour identifier les crawlers IA et croiser automatiquement les métriques de trafic avec les données de Search Console.

Faut-il bloquer les crawlers IA dans robots.txt ?

Cela dépend de votre stratégie. Bloquer les crawlers d’entraînement (ClaudeBot, GPTBot) empêche l’utilisation de votre contenu pour former les modèles IA, mais n’affecte pas les citations existantes. Bloquer les crawlers de recherche (Claude-SearchBot, OAI-SearchBot) vous rend invisible dans les réponses des assistants IA. HDVMA recommande généralement d’autoriser les crawlers de recherche tout en évaluant au cas par cas les crawlers d’entraînement.

Diag IA gratuit
Nous contacter
Parler à Eric