Section 04 · Mécanisme
Comment Google et les LLM utilisent Wikidata.
Le détail technique compte ici, parce qu'il conditionne la manière de construire une fiche utile plutôt qu'une fiche cosmétique.
Google a documenté l'usage de cette base par son Knowledge Graph dans la documentation officielle de la Knowledge Graph Search API. Le graphe propriétaire s'appuie dessus pour les Knowledge Panels, la désambiguïsation d'entité dans le moteur (savoir si « Apple » désigne le fruit, l'entreprise ou les Beatles), et les AI Overviews. Concrètement, lorsqu'une fiche est suffisamment dense, sourcée, et connectée à un sitelink Wikipedia, elle a une probabilité non nulle de déclencher un Knowledge Panel pour la marque.
Les LLM consomment ce graphe ouvert par deux canaux. D'abord à l'entraînement : tous les modèles publics majeurs (GPT, Claude, Gemini, Llama, Mistral) ont ingéré des dumps complets dans leur corpus. Ensuite au retrieval : les moteurs de réponse comme Perplexity, ChatGPT search ou Google AI Overviews font des appels en temps réel pour vérifier des faits, et c'est l'une des sources les plus dense en données vérifiables et structurées disponibles librement.
Le format SPARQL permet d'interroger le graphe directement et explique pourquoi les LLM le trouvent si pratique. Une requête comme la suivante renvoie en quelques millisecondes la liste de toutes les organisations dont Yonel Sasson est fondateur, ou tous les fondateurs d'agence créée après 2020 en Île-de-France.
# Toutes les organisations dont Yonel Sasson est fondateur
# Endpoint : https://query.wikidata.org/
SELECT ?org ?orgLabel ?foundingDate WHERE {
?org wdt:P112 wd:Q139749163 .
OPTIONAL { ?org wdt:P571 ?foundingDate . }
SERVICE wikibase:label {
bd:serviceParam wikibase:language "fr,en" .
}
}
Ce niveau d'interrogation explique pourquoi un LLM préfère citer une entité sémantique bien construite plutôt qu'une page web textuelle équivalente. Le coût cognitif de l'extraction d'information est dix fois plus faible. La probabilité d'erreur factuelle est plus basse. Et l'entité est déjà désambiguïsée par son Q-id.
Conséquence pratique. Si vous voulez qu'un LLM cite votre marque par son nom dans une réponse à une question commerciale, votre Q-item est l'un des trois ou quatre signaux qu'il consultera en priorité, avec votre site officiel et vos profils LinkedIn. Sans cette fiche, vous reposez entièrement sur le crawl HTML, qui est plus coûteux et moins fiable pour identifier une entité.