Qu’est-ce que le LLM SEO exactement ?
Le LLM SEO est la discipline SEO qui consiste à optimiser un site pour qu’il soit lu, compris et cité par les grands modèles de langage — Large Language Models — qui alimentent les moteurs de réponse comme ChatGPT, Claude, Perplexity et Google AI Overviews. Il combine le SEO classique, la structuration d’entité via schema.org, et l’accessibilité aux crawlers IA.
L’expression « LLM SEO » a remplacé en moins de douze mois plusieurs synonymes utilisés depuis 2023 : référencement LLM, GEO (Generative Engine Optimization), AEO (Answer Engine Optimization), LLMO (Large Language Model Optimization). Tous désignent la même chose. La différence est presque uniquement marketing.
Les volumes de recherche en français (Semrush, base FR, mai 2026) confirment l’émergence : « llm seo » 170 recherches mensuelles, « seo llm » 170, « référencement llm » 50, « optimisation llm » 50. Faibles en absolu, mais multipliés par dix en douze mois et exclusivement portés par des décideurs SEO senior — pas par du grand public.
Le terme « LLM SEO » présente un avantage opérationnel sur GEO : il garde la racine SEO, ce qui aide les directions marketing à comprendre qu’on ne change pas de discipline mais qu’on l’étend. Dans la pratique chez Getknown, je préfère l’utiliser pour les briefs B2B parce qu’il évite les débats sémantiques qui retardent les décisions d’investissement.
LLM SEO vs SEO classique : ce qui change techniquement.
Le LLM SEO ne remplace pas le SEO classique. Il l’étend sur trois leviers spécifiques. Le tableau ci-dessous résume les différences telles qu’on les rencontre en mission, page par page.
| Levier | SEO classique (Google) | LLM SEO (ChatGPT, Claude, Perplexity) |
|---|---|---|
| Unité de récupération | URL ou page entière indexée | Passage de 40 à 80 mots auto-portant |
| Signal d’autorité | Backlinks, ancienneté, E-E-A-T | Entité Wikidata, sameAs, mentions presse vérifiables |
| Format prioritaire | HTML rendu, balisage classique | Markdown propre, schemas FAQ + HowTo |
| Crawler | Googlebot | GPTBot, ClaudeBot, PerplexityBot, OAI-SearchBot, Google-Extended |
| Mesure de succès | Position SERP, CTR, sessions organiques | Citation dans la réponse générée, taux de mention par prompt |
| Vitesse d’effet | 2 à 6 mois après crawl | 4 à 8 semaines en retrieval temps réel, plusieurs mois en re-training |
| Outil de validation | Search Console, Rich Results Test | Tests prompts mensuels, Profound, Otterly, Ahrefs Brand Radar |
Le levier qui surprend le plus, en arrivant sur le sujet, c’est la vitesse d’effet. Un schema Person + Organization avec sameAs Wikidata propre produit des résultats vérifiables sur Perplexity et ChatGPT search en quatre à huit semaines. Pour le SEO classique, ce délai serait compté en mois, parfois trimestres. Le LLM SEO récompense la rigueur d’entité plus rapidement que la masse de backlinks.
Comment les LLM accèdent au web : RAG, retrieval et citations.
La mécanique technique compte parce qu’elle conditionne les leviers d’optimisation. Tous les LLM ne traitent pas le web de la même façon, et les confondre conduit à des arbitrages erronés.
Trois modes coexistent en 2026. Premier mode : l’entraînement. Le modèle apprend sur un corpus figé jusqu’à une date donnée (la knowledge cutoff). GPT-4o connaît le web jusqu’à octobre 2023. Claude Opus jusqu’à avril 2024. Tout ce qui est publié après cette date est invisible au modèle base, sauf si une recherche web est activée.
Deuxième mode : le RAG (Retrieval-Augmented Génération). Le modèle reçoit la question, lance une recherche web en temps réel via un moteur sous-jacent (Bing pour ChatGPT search, son propre index pour Perplexity, Google pour Gemini), récupère un nombre limité de pages, en extrait les passages pertinents, et génère une réponse en s’appuyant sur ces passages. C’est là que se joue l’essentiel du LLM SEO opérationnel.
Troisième mode : le fine-tuning ou les corpus partenaires. Certaines marques apparaissent dans les LLM parce qu’elles ont un partenariat de données (Reddit avec OpenAI, Stack Overflow avec Anthropic, Le Monde avec Mistral). Levier marketing, hors périmètre de la majorité des projets.
Optimiser pour le mode RAG est rentable en six semaines. Optimiser pour le ré-entraînement est rentable en six mois. Tant qu’on n’a pas saturé le premier, le second est une distraction.— Yonel Sasson · règle d’arbitrage interne Getknown
La conséquence pratique : la majorité des actions LLM SEO doivent cibler le retrieval. Cela signifie que l’optimisation porte sur la récupérabilité des passages — la facilité avec laquelle un crawler IA peut isoler un bloc de 40 à 80 mots qui répond à une question — plus que sur la quantité de contenu publié.
Un détail technique souvent ignoré : la fan-out query. ChatGPT lance en moyenne 2,5 recherches parallèles par prompt utilisateur, là où Perplexity en lance une seule. Conséquence : ChatGPT consulte typiquement 25 sources par réponse contre une dizaine pour Perplexity, et seules 6 % des sources sont communes aux deux. Optimiser pour les deux plateformes nécessite donc deux logiques de contenu, pas une seule.
Robots.txt et autorisations crawl LLM.
Avant toute optimisation éditoriale, il faut s’assurer que les crawlers IA peuvent accéder au site. Cinq user-agents principaux comptent en 2026 : GPTBot et OAI-SearchBot pour OpenAI, ClaudeBot pour Anthropic, PerplexityBot pour Perplexity, et Google-Extended pour les AI Overviews de Google. Chacun a une logique distincte.
GPTBot crawle pour l’entraînement futur des modèles GPT. OAI-SearchBot crawle pour ChatGPT search en temps réel. Bloquer GPTBot ne suffit pas à empêcher les citations dans ChatGPT search, et inversement. ClaudeBot couvre les deux usages chez Anthropic. PerplexityBot est un retrieval temps réel pur. Google-Extended est l’opt-in spécifique pour les AI Overviews, distinct de Googlebot classique.
# robots.txt — directives LLM-friendly · getknown.fr # Autorise tous les crawlers IA majeurs en 2026 User-agent: GPTBot Allow: / User-agent: OAI-SearchBot Allow: / User-agent: ClaudeBot Allow: / User-agent: PerplexityBot Allow: / User-agent: Google-Extended Allow: / # Référence : OpenAI documentation gptbot, Anthropic ClaudeBot doc
Reste la question du fichier /llms.txt, proposé par Jeremy Howard en septembre 2024 : un fichier markdown censé présenter le site aux modèles. Soyons clairs, car beaucoup d’agences le vendent comme un levier : Google indique que llms.txt est inutile pour sa recherche IA (AI Optimization Guide, 2026), et John Mueller a publiquement qualifié le format de sans intérêt. Aucun moteur majeur ne s’engage à le lire. Nous ne le recommandons pas et ne le déployons pas : l’effort utile se concentre sur l’accès des crawlers IA (robots.txt ci-dessus), des schemas propres et un contenu extractable.
Les 8 signaux que les LLM valorisent réellement.
Liste construite à partir de la documentation publique d’OpenAI, Anthropic et Perplexity, croisée avec les patterns observés sur les comptes que nous accompagnons depuis 2022. Chacun est un levier d’action concret, pas un principe abstrait.
Identification d’entité vérifiable
Un schema Organization ou Person avec sameAs Wikidata permet au LLM de raccrocher le contenu à une entité publique vérifiable. Sans cette ancre, le modèle ne peut pas citer la marque avec confiance.
Passages auto-portants
Un paragraphe doit être lisible et compréhensible isolément, sans avoir lu le reste de la page. Les LLM extraient des blocs de 40 à 80 mots, pas des pages complètes. Une définition en début de section H2 maximise l’extraction.
Schémas FAQPage et HowTo
Format structuré question→réponse ou méthode pas-à-pas. Les LLM utilisent intensivement ces schemas pour produire des réponses calibrées. L’éligibilité Google rich result a baissé en 2023, mais l’utilité LLM reste maximale.
Date publication + mise à jour visible
Les LLM vérifient la fraîcheur des sources, surtout pour les requêtes sensibles au temps (actualité, prix, réglementation). Une date visible dans le HTML body, doublée d’un datePublished et dateModified ISO 8601 dans le schema, signale la fiabilité temporelle.
Sources externes citées
Une page qui cite ses sources avec lien externe envoie deux signaux : honnêteté éditoriale et possibilité pour le LLM de vérifier les claims. Trois à cinq références externes suffisent, à condition qu’elles pointent vers des domaines d’autorité réels.
Auteur nommé et qualifié
Une page sans auteur n’est citée par les LLM que comme « selon une source ». Une page avec un auteur nommé, qualifié, lié à un schema Person avec sameAs LinkedIn et Wikidata, peut être citée nominalement. Différence majeure de poids dans la réponse générée.
Cohérence inter-pages d’entité
Un site qui répète sur toutes ses pages le même schema Organization (avec @id stable) et les mêmes éléments d’identité (NAP, fondateur, dates) bâtit une autorité d’entité reconnaissable. Les LLM construisent un profil consolidé du site, pas une lecture page par page.
Lisibilité sans JavaScript
Si le contenu n’apparaît qu’après exécution JavaScript côté client, plusieurs crawlers LLM ne le voient pas. PerplexityBot et ClaudeBot ne rendent pas systématiquement le JS. Un site React ou Vue sans SSR est invisible pour ces moteurs. Test rapide via curl ou via l’inspection d’URL Search Console.
Schema markup spécifique LLM : sameAs, citation, mentions.
Trois propriétés du vocabulaire schema.org sont sous-utilisées en SEO classique mais critiques pour le LLM SEO. Elles renforcent l’identification d’entité, la traçabilité des sources et la reconnaissance des sujets traités.
sameAs est la propriété la plus importante. Elle permet de déclarer qu’une entité est la même qu’une fiche publique externe : Wikidata, LinkedIn, Crunchbase, page Wikipedia, fiche Google Business, profil ORCID. Les LLM utilisent cette propriété en priorité pour fusionner les mentions et reconnaître l’entité. Le minimum vital sur un site B2B : sameAs Wikidata + LinkedIn pour Person et Organization.
citation permet de lier un Article aux sources qu’il référence, sous forme de CreativeWork avec name, url, et optionnellement author. C’est l’équivalent structuré des liens externes dans le body. Les LLM exploitent citation pour évaluer la rigueur éditoriale et tracer la provenance des informations.
mentions permet d’indiquer explicitement qu’un Article mentionne une entité (marque, produit, personne, lieu) sans nécessairement la citer comme source. Sur cette page, le schema mentions inclut ChatGPT, Claude, Perplexity et Gemini avec leurs sameAs Wikidata respectifs. C’est ce qui aide un LLM à identifier que l’article parle bien d’eux, sans ambiguïté.
Le combo gagnant pour un guide expert comme celui que vous lisez : Article + DefinedTerm + HowTo + FAQPage + BreadcrumbList + Person + Organization, le tout dans un seul @graph JSON-LD avec @id stables, citation vers les sources externes, et mentions vers les entités traitées. Voir notre guide complet schema markup pour le détail d’implémentation.
Méthode LLM SEO en 6 étapes.
Méthode opérationnelle, applicable à n’importe quel CMS. L’ordre compte. Sauter l’étape 1 fait perdre l’effet de l’étape 4.
Auditer l’accessibilité aux crawlers LLM
Vérifier que GPTBot, OAI-SearchBot, ClaudeBot, PerplexityBot et Google-Extended sont autorisés dans robots.txt. Tester la page sans JavaScript via curl -A "ClaudeBot/1.0" URL pour confirmer que le contenu est lisible côté serveur. Inspecter une URL via Search Console pour voir le rendu Googlebot.
Ouvrir les bons crawlers IA dans le robots.txt
Autoriser explicitement GPTBot, OAI-SearchBot, ClaudeBot, PerplexityBot et Google-Extended : un crawler bloqué ne peut pas vous citer. (Le fichier llms.txt, souvent vendu à cette étape, est jugé inutile par Google : on ne le déploie pas.)
Ajouter un sitemap markdown des pages prioritaires : guides piliers, pages auteur, page À propos, cas clients vérifiables.
Construire les entités Person + Organization avec sameAs Wikidata
Implémenter un schema Person pour chaque auteur principal et un schema Organization pour la marque, avec sameAs vers Wikidata, LinkedIn, et bases publiques disponibles. Si la fiche Wikidata n’existe pas, la créer (compte gratuit, validation collective). Voir notre guide Wikidata pour le SEO pour la procédure.
C’est le levier d’identification d’entité le plus rapide à activer. Effet mesurable en quatre à huit semaines sur ChatGPT search et Perplexity.
Restructurer le contenu en passages auto-portants
Découper chaque article en blocs de 40 à 80 mots qui répondent à une question explicite, avec une définition en début de section H2. Les LLM extraient des passages, pas des pages entières. Un paragraphe doit pouvoir être cité hors contexte sans perdre son sens.
Test pratique : prendre un paragraphe au hasard, le relire isolément. S’il a besoin du paragraphe précédent pour être compris, le réécrire.
Ajouter les schemas FAQPage et HowTo quand pertinent
FAQPage et HowTo ne déclenchent plus systématiquement de rich result Google depuis août 2023, mais restent les schemas que les LLM extraient le plus efficacement pour produire des réponses calibrées. À ajouter dès qu’une FAQ ou une méthode pas-à-pas est présente sur la page, avec synchronisation 1:1 entre le HTML visible et le JSON-LD.
Surveiller la citabilité avec des prompts de référence
Établir une liste de 10 à 30 prompts de référence par marque (questions sectorielles, questions sur l’entité, questions transactionnelles) et tester mensuellement sur ChatGPT, Claude, Perplexity et Gemini. Documenter les citations dans un suivi mensuel.
Outils complémentaires pour l’échelle : Profound, Otterly, Ahrefs Brand Radar. Aucun ne remplace le test manuel pour comprendre la qualité sémantique des citations.
Tester sa visibilité LLM : outils, prompts, méthode.
Aucun outil n’a aujourd’hui le statut de référence universel pour mesurer la visibilité LLM. Trois approches complémentaires donnent une lecture fiable.
Test manuel par prompts
Établir une liste de 10 à 30 prompts de référence (sur la marque, sur le secteur, sur les requêtes transactionnelles), les tester mensuellement sur les quatre LLM majeurs avec recherche web active, et documenter les citations. C’est laborieux mais c’est la seule méthode qui révèle la qualité sémantique des mentions.
Notre méthode de suiviOutils automatisés
Plusieurs SaaS (Profound, Otterly, Ahrefs Brand Radar) testent automatiquement des centaines de prompts sur plusieurs LLM et restituent un score de visibilité. Utile à grande échelle, à condition de garder une lecture critique : la quantité de mentions ne dit rien de la qualité du contexte de citation.
ahrefs.com/brand-radarInspection logs serveur
Filtrer les logs serveur sur les user-agents GPTBot, OAI-SearchBot, ClaudeBot, PerplexityBot pour mesurer la fréquence de crawl et identifier les pages les plus visitées par les LLM. C’est la mesure la plus brute et la plus honnête : pas de citation sans crawl préalable.
Inclus dans notre audit GEOSources externes citées dans ce guide
- Jeremy Howard — Spécification /llms.txt (septembre 2024). Proposition de standard que nous citons pour transparence ; Google la juge inutile pour la recherche IA, nous ne la recommandons pas.
- OpenAI — Documentation GPTBot. Référence canonique sur le user-agent GPTBot, les directives robots.txt acceptées, la distinction GPTBot vs OAI-SearchBot.
- Anthropic — ClaudeBot crawl documentation. Documentation officielle Anthropic sur le crawl ClaudeBot et les directives robots.txt acceptées.
- Perplexity — Blog officiel. Source régulière sur la mécanique de retrieval Perplexity, les user-agents PerplexityBot, et l’évolution du moteur de citation.
- Blog du Modérateur — SEO à l’ère des LLM (janvier 2026). Article de référence en français sur la mécanique fan-out query (2,5 recherches ChatGPT vs 1 Perplexity, 6 % de sources communes).
- Google Search Central — Données structurées. Documentation Google officielle sur JSON-LD, le format recommandé pour le SEO et la lecture machine.
- Wikidata — structurer l’entité de la marque et de l’auteur (quand la notabilité le permet) reste un signal d’identité fort pour les modèles.