Guide expert · GEO 2 050 mots · 12 minutes Publié Mis à jour

LLM SEO : optimiser pour ChatGPT, Claude, Perplexity et Gemini.

Le LLM SEO est devenu, en 2026, la discipline qui décide si une marque est citée ou ignorée par les moteurs de réponse. Ce guide pose la définition exacte, explique comment les modèles accèdent au web (RAG, retrieval, citations), détaille les autorisations crawl, liste les huit signaux que les LLM valorisent réellement, et donne une méthode en six étapes — testée sur des comptes B2B et e-commerce depuis 2022.

Aller à la méthode en 6 étapes
YS
Yonel Sasson
Fondateur Getknown · 10 ans SEO + 4 ans GEO

Qu'est-ce que le LLM SEO exactement ?

Définition

Le LLM SEO est la discipline SEO qui consiste à optimiser un site pour qu'il soit lu, compris et cité par les grands modèles de langage — Large Language Models — qui alimentent les moteurs de réponse comme ChatGPT, Claude, Perplexity et Google AI Overviews. Il combine le SEO classique, la structuration d'entité via schema.org, l'accessibilité aux crawlers IA et la publication d'un fichier llms.txt à la racine du domaine.

L'expression « LLM SEO » a remplacé en moins de douze mois plusieurs synonymes utilisés depuis 2023 : référencement LLM, GEO (Generative Engine Optimization), AEO (Answer Engine Optimization), LLMO (Large Language Model Optimization). Tous désignent la même chose. La différence est presque uniquement marketing.

Les volumes de recherche en français (Semrush, base FR, mai 2026) confirment l'émergence : « llm seo » 170 recherches mensuelles, « seo llm » 170, « référencement llm » 50, « optimisation llm » 50. Faibles en absolu, mais multipliés par dix en douze mois et exclusivement portés par des décideurs SEO senior — pas par du grand public.

Le terme « LLM SEO » présente un avantage opérationnel sur GEO : il garde la racine SEO, ce qui aide les directions marketing à comprendre qu'on ne change pas de discipline mais qu'on l'étend. Dans la pratique chez Getknown, je préfère l'utiliser pour les briefs B2B parce qu'il évite les débats sémantiques qui retardent les décisions d'investissement.

LLM SEO vs SEO classique : ce qui change techniquement.

Le LLM SEO ne remplace pas le SEO classique. Il l'étend sur trois leviers spécifiques. Le tableau ci-dessous résume les différences telles qu'on les rencontre en mission, page par page.

Levier SEO classique (Google) LLM SEO (ChatGPT, Claude, Perplexity)
Unité de récupérationURL ou page entière indexéePassage de 40 à 80 mots auto-portant
Signal d'autoritéBacklinks, ancienneté, E-E-A-TEntité Wikidata, sameAs, mentions presse vérifiables
Format prioritaireHTML rendu, balisage classiqueMarkdown, /llms.txt, schemas FAQ + HowTo
CrawlerGooglebotGPTBot, ClaudeBot, PerplexityBot, OAI-SearchBot, Google-Extended
Mesure de succèsPosition SERP, CTR, sessions organiquesCitation dans la réponse générée, taux de mention par prompt
Vitesse d'effet2 à 6 mois après crawl4 à 8 semaines en retrieval temps réel, plusieurs mois en re-training
Outil de validationSearch Console, Rich Results TestTests prompts mensuels, Profound, Otterly, Ahrefs Brand Radar

Le levier qui surprend le plus, en arrivant sur le sujet, c'est la vitesse d'effet. Un schema Person + Organization avec sameAs Wikidata propre produit des résultats mesurables sur Perplexity et ChatGPT search en quatre à huit semaines. Pour le SEO classique, ce délai serait compté en mois, parfois trimestres. Le LLM SEO récompense la rigueur d'entité plus rapidement que la masse de backlinks.

Comment les LLM accèdent au web : RAG, retrieval et citations.

La mécanique technique compte parce qu'elle conditionne les leviers d'optimisation. Tous les LLM ne traitent pas le web de la même façon, et les confondre conduit à des arbitrages erronés.

Trois modes coexistent en 2026. Premier mode : l'entraînement. Le modèle apprend sur un corpus figé jusqu'à une date donnée (la knowledge cutoff). GPT-4o connaît le web jusqu'à octobre 2023. Claude Opus jusqu'à avril 2024. Tout ce qui est publié après cette date est invisible au modèle base, sauf si une recherche web est activée.

Deuxième mode : le RAG (Retrieval-Augmented Generation). Le modèle reçoit la question, lance une recherche web en temps réel via un moteur sous-jacent (Bing pour ChatGPT search, son propre index pour Perplexity, Google pour Gemini), récupère un nombre limité de pages, en extrait les passages pertinents, et génère une réponse en s'appuyant sur ces passages. C'est là que se joue l'essentiel du LLM SEO opérationnel.

Troisième mode : le fine-tuning ou les corpus partenaires. Certaines marques apparaissent dans les LLM parce qu'elles ont un partenariat de données (Reddit avec OpenAI, Stack Overflow avec Anthropic, Le Monde avec Mistral). Levier marketing, hors périmètre de la majorité des projets.

Optimiser pour le mode RAG est rentable en six semaines. Optimiser pour le ré-entraînement est rentable en six mois. Tant qu'on n'a pas saturé le premier, le second est une distraction.
— Yonel Sasson · règle d'arbitrage interne Getknown

La conséquence pratique : la majorité des actions LLM SEO doivent cibler le retrieval. Cela signifie que l'optimisation porte sur la récupérabilité des passages — la facilité avec laquelle un crawler IA peut isoler un bloc de 40 à 80 mots qui répond à une question — plus que sur la quantité de contenu publié.

Un détail technique souvent ignoré : la fan-out query. ChatGPT lance en moyenne 2,5 recherches parallèles par prompt utilisateur, là où Perplexity en lance une seule. Conséquence : ChatGPT consulte typiquement 25 sources par réponse contre une dizaine pour Perplexity, et seules 6 % des sources sont communes aux deux. Optimiser pour les deux plateformes nécessite donc deux logiques de contenu, pas une seule.

Robots.txt, llms.txt et autorisations crawl LLM.

Avant toute optimisation éditoriale, il faut s'assurer que les crawlers IA peuvent accéder au site. Cinq user-agents principaux comptent en 2026 : GPTBot et OAI-SearchBot pour OpenAI, ClaudeBot pour Anthropic, PerplexityBot pour Perplexity, et Google-Extended pour les AI Overviews de Google. Chacun a une logique distincte.

GPTBot crawle pour l'entraînement futur des modèles GPT. OAI-SearchBot crawle pour ChatGPT search en temps réel. Bloquer GPTBot ne suffit pas à empêcher les citations dans ChatGPT search, et inversement. ClaudeBot couvre les deux usages chez Anthropic. PerplexityBot est un retrieval temps réel pur. Google-Extended est l'opt-in spécifique pour les AI Overviews, distinct de Googlebot classique.

# robots.txt — directives LLM-friendly · getknown.fr
# Autorise tous les crawlers IA majeurs en 2026

User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

# Référence : OpenAI documentation gptbot, Anthropic ClaudeBot doc

Le fichier /llms.txt est l'autre brique d'autorisation. Proposé par Jeremy Howard en septembre 2024 (spec officielle sur llmstxt.org), c'est un fichier markdown placé à la racine du domaine, qui présente aux LLM la structure du site et pointe vers les pages prioritaires à utiliser pour comprendre la marque. Il complète sitemap.xml (qui s'adresse aux moteurs) et robots.txt (qui régule l'accès).

# Getknown — agence SEO et GEO

> Agence SEO/GEO basée à Levallois-Perret, fondée en 2022 par Yonel Sasson. Spécialisée dans l'optimisation pour Google et les moteurs de réponse IA (ChatGPT, Claude, Perplexity).

## Pages clés

- [LLM SEO : guide expert](https://getknown.fr/guides/llm-seo/) : définition, méthode, signaux LLM
- [Schema Markup : guide complet](https://getknown.fr/guides/schema-markup/) : 15 schemas utiles, JSON-LD, sameAs Wikidata
- [Audit GEO](https://getknown.fr/geo/audit/) : méthode, livrable, prix
- [Wikidata pour le SEO](https://getknown.fr/guides/wikidata-entites/) : créer une entité, sameAs

## Références équipe

- [Yonel Sasson sur Wikidata (Q139749163)](https://www.wikidata.org/wiki/Q139749163)
- [Getknown sur Wikidata (Q139749070)](https://www.wikidata.org/wiki/Q139749070)

Le bénéfice du llms.txt n'est pas garanti — aucun LLM n'est aujourd'hui contraint de le lire — mais le coût d'implémentation est nul (un fichier markdown), et plusieurs équipes confirment l'utiliser en interne pour la compréhension des sites tiers. Anthropic le mentionne explicitement dans sa documentation produit. Le rapport coût-bénéfice penche très fort en faveur de l'implémentation.

Les 8 signaux que les LLM valorisent réellement.

Liste construite à partir de la documentation publique d'OpenAI, Anthropic et Perplexity, croisée avec les patterns observés sur les comptes que nous accompagnons depuis 2022. Chacun est un levier d'action concret, pas un principe abstrait.

Signal 01

Identification d'entité vérifiable

Un schema Organization ou Person avec sameAs Wikidata permet au LLM de raccrocher le contenu à une entité publique vérifiable. Sans cette ancre, le modèle ne peut pas citer la marque avec confiance.

Sources : Anthropic doc, Perplexity blog
Signal 02

Passages auto-portants

Un paragraphe doit être lisible et compréhensible isolément, sans avoir lu le reste de la page. Les LLM extraient des blocs de 40 à 80 mots, pas des pages complètes. Une définition en début de section H2 maximise l'extraction.

Sources : Princeton GEO paper 2023
Signal 03

Schémas FAQPage et HowTo

Format structuré question→réponse ou méthode pas-à-pas. Les LLM utilisent intensivement ces schemas pour produire des réponses calibrées. L'éligibilité Google rich result a baissé en 2023, mais l'utilité LLM reste maximale.

Sources : Google Search Central 2023
Signal 04

Date publication + mise à jour visible

Les LLM vérifient la fraîcheur des sources, surtout pour les requêtes sensibles au temps (actualité, prix, réglementation). Une date visible dans le HTML body, doublée d'un datePublished et dateModified ISO 8601 dans le schema, signale la fiabilité temporelle.

Sources : OpenAI documentation
Signal 05

Sources externes citées

Une page qui cite ses sources avec lien externe envoie deux signaux : honnêteté éditoriale et possibilité pour le LLM de vérifier les claims. Trois à cinq références externes suffisent, à condition qu'elles pointent vers des domaines d'autorité réels.

Sources : E-E-A-T Google guidelines
Signal 06

Auteur nommé et qualifié

Une page sans auteur n'est citée par les LLM que comme « selon une source ». Une page avec un auteur nommé, qualifié, lié à un schema Person avec sameAs LinkedIn et Wikidata, peut être citée nominalement. Différence majeure de poids dans la réponse générée.

Sources : Princeton GEO 2023, observation Getknown
Signal 07

Cohérence inter-pages d'entité

Un site qui répète sur toutes ses pages le même schema Organization (avec @id stable) et les mêmes éléments d'identité (NAP, fondateur, dates) bâtit une autorité d'entité reconnaissable. Les LLM construisent un profil consolidé du site, pas une lecture page par page.

Sources : observation Getknown 2024-2026
Signal 08

Lisibilité sans JavaScript

Si le contenu n'apparaît qu'après exécution JavaScript côté client, plusieurs crawlers LLM ne le voient pas. PerplexityBot et ClaudeBot ne rendent pas systématiquement le JS. Un site React ou Vue sans SSR est invisible pour ces moteurs. Test rapide via curl ou via l'inspection d'URL Search Console.

Sources : Anthropic doc, test terrain Getknown

Schema markup spécifique LLM : sameAs, citation, mentions.

Trois propriétés du vocabulaire schema.org sont sous-utilisées en SEO classique mais critiques pour le LLM SEO. Elles renforcent l'identification d'entité, la traçabilité des sources et la reconnaissance des sujets traités.

sameAs est la propriété la plus importante. Elle permet de déclarer qu'une entité est la même qu'une fiche publique externe : Wikidata, LinkedIn, Crunchbase, page Wikipedia, fiche Google Business, profil ORCID. Les LLM utilisent cette propriété en priorité pour fusionner les mentions et reconnaître l'entité. Le minimum vital sur un site B2B : sameAs Wikidata + LinkedIn pour Person et Organization.

citation permet de lier un Article aux sources qu'il référence, sous forme de CreativeWork avec name, url, et optionnellement author. C'est l'équivalent structuré des liens externes dans le body. Les LLM exploitent citation pour évaluer la rigueur éditoriale et tracer la provenance des informations.

mentions permet d'indiquer explicitement qu'un Article mentionne une entité (marque, produit, personne, lieu) sans nécessairement la citer comme source. Sur cette page, le schema mentions inclut ChatGPT, Claude, Perplexity et Gemini avec leurs sameAs Wikidata respectifs. C'est ce qui aide un LLM à identifier que l'article parle bien d'eux, sans ambiguïté.

Le combo gagnant pour un guide expert comme celui que vous lisez : Article + DefinedTerm + HowTo + FAQPage + BreadcrumbList + Person + Organization, le tout dans un seul @graph JSON-LD avec @id stables, citation vers les sources externes, et mentions vers les entités traitées. Voir notre guide complet schema markup pour le détail d'implémentation.

Méthode LLM SEO en 6 étapes.

Méthode opérationnelle, applicable à n'importe quel CMS. L'ordre compte. Sauter l'étape 1 fait perdre l'effet de l'étape 4.

01

Auditer l'accessibilité aux crawlers LLM

Vérifier que GPTBot, OAI-SearchBot, ClaudeBot, PerplexityBot et Google-Extended sont autorisés dans robots.txt. Tester la page sans JavaScript via curl -A "ClaudeBot/1.0" URL pour confirmer que le contenu est lisible côté serveur. Inspecter une URL via Search Console pour voir le rendu Googlebot.

02

Publier un /llms.txt à la racine du domaine

Créer un fichier markdown à /llms.txt avec un H1 nom du site, un blockquote résumé, et des sections H2 listant les pages clés à présenter aux LLM en priorité. Suivre la spec officielle llmstxt.org de Jeremy Howard.

Ajouter un sitemap markdown des pages prioritaires : guides piliers, pages auteur, page À propos, cas clients vérifiables.

03

Construire les entités Person + Organization avec sameAs Wikidata

Implémenter un schema Person pour chaque auteur principal et un schema Organization pour la marque, avec sameAs vers Wikidata, LinkedIn, et bases publiques disponibles. Si la fiche Wikidata n'existe pas, la créer (compte gratuit, validation collective). Voir notre guide Wikidata pour le SEO pour la procédure.

C'est le levier d'identification d'entité le plus rapide à activer. Effet mesurable en quatre à huit semaines sur ChatGPT search et Perplexity.

04

Restructurer le contenu en passages auto-portants

Découper chaque article en blocs de 40 à 80 mots qui répondent à une question explicite, avec une définition en début de section H2. Les LLM extraient des passages, pas des pages entières. Un paragraphe doit pouvoir être cité hors contexte sans perdre son sens.

Test pratique : prendre un paragraphe au hasard, le relire isolément. S'il a besoin du paragraphe précédent pour être compris, le réécrire.

05

Ajouter les schemas FAQPage et HowTo quand pertinent

FAQPage et HowTo ne déclenchent plus systématiquement de rich result Google depuis août 2023, mais restent les schemas que les LLM extraient le plus efficacement pour produire des réponses calibrées. À ajouter dès qu'une FAQ ou une méthode pas-à-pas est présente sur la page, avec synchronisation 1:1 entre le HTML visible et le JSON-LD.

06

Surveiller la citabilité avec des prompts de référence

Établir une liste de 10 à 30 prompts de référence par marque (questions sectorielles, questions sur l'entité, questions transactionnelles) et tester mensuellement sur ChatGPT, Claude, Perplexity et Gemini. Documenter les citations dans un suivi mensuel.

Outils complémentaires pour l'échelle : Profound, Otterly, Ahrefs Brand Radar. Aucun ne remplace le test manuel pour comprendre la qualité sémantique des citations.

Tester sa visibilité LLM : outils, prompts, méthode.

Aucun outil n'a aujourd'hui le statut de référence universel pour mesurer la visibilité LLM. Trois approches complémentaires donnent une lecture fiable.

Approche 1

Test manuel par prompts

Établir une liste de 10 à 30 prompts de référence (sur la marque, sur le secteur, sur les requêtes transactionnelles), les tester mensuellement sur les quatre LLM majeurs avec recherche web active, et documenter les citations. C'est laborieux mais c'est la seule méthode qui révèle la qualité sémantique des mentions.

Notre méthode de suivi
Approche 2

Outils automatisés

Plusieurs SaaS (Profound, Otterly, Ahrefs Brand Radar) testent automatiquement des centaines de prompts sur plusieurs LLM et restituent un score de visibilité. Utile à grande échelle, à condition de garder une lecture critique : la quantité de mentions ne dit rien de la qualité du contexte de citation.

ahrefs.com/brand-radar
Approche 3

Inspection logs serveur

Filtrer les logs serveur sur les user-agents GPTBot, OAI-SearchBot, ClaudeBot, PerplexityBot pour mesurer la fréquence de crawl et identifier les pages les plus visitées par les LLM. C'est la mesure la plus brute et la plus honnête : pas de citation sans crawl préalable.

Inclus dans notre audit GEO

Sources externes citées dans ce guide

  1. Jeremy Howard — Spécification officielle /llms.txt (septembre 2024). Document fondateur de la proposition de standard pour exposer les sites aux LLM via un fichier markdown racine.
  2. OpenAI — Documentation GPTBot. Référence canonique sur le user-agent GPTBot, les directives robots.txt acceptées, la distinction GPTBot vs OAI-SearchBot.
  3. Anthropic — ClaudeBot crawl documentation. Documentation officielle Anthropic sur le crawl ClaudeBot et les directives robots.txt acceptées.
  4. Perplexity — Blog officiel. Source régulière sur la mécanique de retrieval Perplexity, les user-agents PerplexityBot, et l'évolution du moteur de citation.
  5. Blog du Modérateur — SEO à l'ère des LLM (janvier 2026). Article de référence en français sur la mécanique fan-out query (2,5 recherches ChatGPT vs 1 Perplexity, 6 % de sources communes).
  6. Google Search Central — Données structurées. Documentation Google officielle sur JSON-LD, le format recommandé pour le SEO et la lecture machine.
  7. Wikidata — Getknown (Q139749070). Fiche d'entité publique de l'organisation, utilisée comme sameAs dans le schema Organization de cette page.
  8. Wikidata — Yonel Sasson (Q139749163). Fiche d'entité publique de l'auteur, utilisée comme sameAs dans le schema Person de cette page.

LLM SEO : les questions qui reviennent.

LLM SEO et GEO (Generative Engine Optimization) désignent en pratique la même discipline. GEO est le terme académique introduit par Princeton en 2023. LLM SEO est le terme courant chez les SEO opérationnels. Tous deux décrivent l'optimisation d'un site pour qu'il soit lu, compris et cité par les grands modèles de langage qui alimentent ChatGPT, Claude, Perplexity et Google AI Overviews.
Non. Le LLM SEO complète le SEO classique. Les LLM s'appuient massivement sur la qualité technique, l'autorité de domaine, les backlinks et les signaux E-E-A-T qui font le SEO depuis quinze ans. Un site mal référencé sur Google sera mal référencé par les LLM, parce que ces derniers utilisent souvent les mêmes index de récupération. Le LLM SEO ajoute des leviers spécifiques (llms.txt, schemas Person + Organization, passages auto-portants), il ne remplace rien.
Oui, à condition de comprendre ce que c'est. Le /llms.txt est une proposition de standard de Jeremy Howard (septembre 2024) hébergée sur llmstxt.org. Aucun LLM n'est aujourd'hui obligé de le lire, mais Anthropic le recommande explicitement pour Claude, et plusieurs LLM en exploitent déjà les sections. Le coût d'implémentation est faible (un fichier markdown), le bénéfice est asymétrique.
Tester manuellement avec une liste de prompts de référence (questions sur la marque, questions sectorielles, questions transactionnelles), en mode ChatGPT search activé. Comparer les citations affichées en bas de la réponse. Documenter mois par mois. Des outils comme Profound, Otterly ou Ahrefs Brand Radar mesurent automatiquement à grande échelle, mais le test manuel reste irremplaçable pour comprendre la sémantique des citations.
Non, sauf cas très spécifique (contenu propriétaire, modèle économique strictement freemium derrière paywall). Bloquer GPTBot, ClaudeBot ou PerplexityBot empêche la marque d'être citée dans les réponses générées, ce qui est l'opposé de l'objectif LLM SEO. La distinction technique : GPTBot crawle pour l'entraînement, OAI-SearchBot crawle pour ChatGPT search en temps réel. Bloquer GPTBot n'empêche pas les citations en search.
Trois schemas font 80 % de la valeur LLM SEO : Organization avec sameAs Wikidata, Person avec sameAs Wikidata et LinkedIn, et BreadcrumbList sur toutes les pages internes. Ensuite, FAQPage et HowTo restent les schemas que les LLM extraient le plus efficacement pour produire des réponses calibrées, même s'ils ne déclenchent plus systématiquement de rich result Google depuis 2023.
L'effet d'un schema Person + Organization avec sameAs Wikidata propre est mesurable en quatre à huit semaines sur les LLM qui font du retrieval temps réel (ChatGPT search, Perplexity, Claude). Pour les LLM qui s'appuient sur leur corpus d'entraînement (modèles base sans recherche web active), l'effet n'apparaîtra qu'au prochain re-training, soit plusieurs mois. La règle pratique : optimiser les pages que les LLM récupèrent en live avant de chercher à influencer les corpus d'entraînement.

Reste à savoir si ChatGPT et Perplexity citent déjà votre site.

Un diagnostic gratuit en trente minutes. Nous regardons votre robots.txt, votre llms.txt s'il existe, vos schemas Person et Organization, et nous testons cinq prompts de référence sur ChatGPT, Claude et Perplexity. Vous repartez avec une lecture honnête de votre citabilité actuelle — sans engagement de signature.

Réserver 30 minutes