Crawlabilité
Capacité de Googlebot et des bots IA à parcourir le site. Robots.txt, profondeur d'arborescence, liens internes, budget crawl. Une page non crawlée n'existe pas.
Crawl · BudgetLe SEO technique, c'est la couche du référencement naturel que Google voit avant de regarder votre contenu. Crawl, indexation, performance, schéma, mobile, JavaScript, GEO. Si cette couche est cassée, le reste ne sert à rien. Ce guide en pose les douze piliers, la méthode d'audit en huit étapes, les outils que nous utilisons sur les programmes Getknown, et la dimension neuve : l'extractabilité par les LLMs.
Demander un audit techniqueDéfinition courte d'abord, nuances ensuite. C'est la moitié invisible du référencement naturel, celle qui décide si Google et les IA peuvent lire ce que vous publiez.
Le référencement naturel se découpe classiquement en trois piliers : technique, contenu, popularité. La couche technique est celle qu'on traite en premier, parce qu'aucun travail éditorial ne compense un site que Google ne peut pas crawler. La logique d'un bâtiment : on ne décore pas avant d'avoir coulé les fondations.
La distinction avec le SEO on-page reste utile. L'on-page concerne le HTML d'une page individuelle — title, balises Hn, contenu, ancres. Le technique concerne les conditions d'accès à l'échelle du site entier. Une title mal écrite est un problème on-page. Une chaîne de redirections qui bloque l'indexation est un problème technique.
La frontière s'est brouillée avec deux évolutions : la généralisation des données structurées Schema.org, à la fois techniques et sémantiques, et l'arrivée des moteurs IA (ChatGPT Search, Perplexity, Google AI Overviews) qui imposent une lecture passage par passage du contenu.
Trois forces convergent : durcissement Core Web Vitals (INP depuis mars 2024), généralisation du rendu côté serveur attendu par les LLMs, et explosion du nombre de crawlers IA actifs.
Le sujet n'est pas nouveau. Ce qui change en 2026, c'est la tolérance des moteurs aux compromis. Google a remplacé FID par INP comme Core Web Vital en mars 2024 ; INP mesure la réactivité réelle d'une page, pas un délai initial unique. Le seuil est exigeant : 200 millisecondes maximum sur 75 % des visites mobiles, selon la documentation officielle web.dev [1].
Dans le même temps, le nombre d'agents IA qui crawlent le web a explosé. GPTBot, ClaudeBot, PerplexityBot, Google-Extended, Applebot-Extended, CCBot, Bytespider — chacun avec son user-agent, son rythme et ses règles. Une étude Cloudflare de fin 2024 montre que le trafic des crawlers IA a augmenté de plusieurs ordres de grandeur sur l'année écoulée [2]. Le robots.txt n'est plus un fichier qu'on écrit une fois et qu'on oublie.
L'enjeu n'est plus seulement de plaire à Googlebot. Une page mal rendue côté serveur sera ignorée par les LLMs qui ne lisent pas le DOM hydraté. Un balisage Article incomplet n'apparaîtra ni dans les rich results Google ni dans les knowledge cards de Perplexity. Un sitemap obsolète prive le crawler IA d'un signal de fraîcheur qu'il utilise pour décider quelles pages re-lire.
L'autre raison pour laquelle ce chantier remonte en 2026 : le coût d'un site mal indexé devient mesurable côté business. La part du trafic organique qui vient désormais des résultats IA — qu'on l'appelle AI Overviews, ChatGPT Search ou Perplexity — n'est plus marginale dans les verticales informationnelles. Une page que ces moteurs ne peuvent ni crawler ni résumer n'a aucune chance d'être citée.
Découpage opérationnel — celui qu'on utilise sur les audits Getknown. Chaque pilier est mesurable, chacun a ses outils, chacun se traite séparément avant d'être recomposé.
Capacité de Googlebot et des bots IA à parcourir le site. Robots.txt, profondeur d'arborescence, liens internes, budget crawl. Une page non crawlée n'existe pas.
Crawl · BudgetDécision du moteur d'inclure la page dans son index. Meta robots, canonical, noindex, redirections. Le piège classique : noindex accidentel hérité d'un staging.
Index · GSCStructure des URLs, profondeur des répertoires, slugs lisibles, paramètres canonisés. Une bonne arborescence se devine en lisant l'URL.
URL · SlugsLCP (chargement), CLS (stabilité), INP (réactivité). Mesures terrain CrUX, pas Lighthouse en labo. Seuils 2,5 s / 0,1 / 200 ms.
CWV · CrUXLe crawl Google se fait avec Googlebot Smartphone depuis 2023 pour toute nouvelle découverte. Le rendu mobile est la référence, pas le desktop.
Mobile · ViewportHTTPS obligatoire, certificat valide, HSTS, en-têtes de sécurité. Un site en HTTP en 2026 n'apparaît plus sérieusement dans les SERP.
HTTPS · HSTSDonnées structurées JSON-LD pour Article, Product, FAQ, BreadcrumbList, LocalBusiness, Organization, Person. Carburant des rich results et des citations IA.
JSON-LD · SchemaBalisage des versions linguistiques et géographiques. Sur les sites multi-pays, le pilier qui décide quelle version s'affiche sur quel marché.
i18n · InternationalFichier qui autorise ou bloque les crawlers. En 2026, il gère aussi GPTBot, ClaudeBot, PerplexityBot, Google-Extended, Applebot-Extended.
Bots · CrawlListe des URLs canoniques à indexer, mise à jour à chaque publication. Signale au crawler ce qui mérite l'attention et la fraîcheur.
Sitemap · IndexSSR, SSG, hydratation. Googlebot rend la majorité du JS, les LLMs presque rien. Un site SPA non rendu côté serveur perd des citations IA.
SSR · HydrationPilier neuf en 2026. Llms.txt, paragraphes auto-portants, Q-A structuré, accessibilité aux bots IA. Décide si une marque est citée par ChatGPT ou ignorée.
GEO · LLMLa méthode que nous appliquons sur chaque diagnostic Getknown. Trois à six jours selon la taille du site. Sortie : un rapport priorisé, pas une liste de 200 lignes vert/jaune/rouge.
Le crawl est la photographie de départ. On le lance avec un user-agent mobile et le rendu JavaScript activé. On exporte les codes HTTP, les balises, les profondeurs, les liens internes, les images. C'est la base de tout l'audit.
Le crawler peut tout voir, l'indexeur peut tout refuser. La GSC affiche les pages non indexées avec la raison : exclues par balise, anomalies de crawl, doublons sans canonique, soft 404. On extrait l'inventaire et on priorise.
La donnée terrain est celle qui compte pour le classement, pas le score Lighthouse d'un test ponctuel. On extrait les métriques CrUX 28 jours sur les 30 pages les plus visitées et on cartographie LCP, CLS, INP par template.
On teste chaque template clé : home, catégorie, produit, article, FAQ, contact. Le Rich Results Test confirme l'éligibilité aux rich snippets. Le Schema Markup Validator vérifie la conformité au standard. Les deux sont nécessaires.
Le robots.txt mérite un examen line by line. On vérifie qu'aucune section utile n'est en Disallow par héritage, et que les bots IA souhaités sont bien autorisés. C'est aussi l'endroit où l'on déclare l'URL du sitemap.
On regarde la profondeur des pages stratégiques (idéalement < 4 clics depuis la home), la propreté des slugs, la gestion des paramètres d'URL (sort, filter, page) avec canonical, et la distribution du link juice interne via le maillage.
On compare le HTML servi (View Source) au DOM hydraté (Inspect Element). Si le contenu utile n'apparaît que dans le DOM hydraté, on a un problème de rendu côté LLM, et parfois côté Google sur les sites JavaScript lourds. SSR ou SSG sont la solution propre.
La liste brute n'a aucune valeur si elle n'est pas priorisée. On classe chaque finding par impact estimé (trafic à risque ou à débloquer), effort dev/contenu, et délai de prise d'effet. Le livrable est une roadmap 90 jours, pas un tableau exhaustif.
Ce qu'on utilise réellement chez Getknown sur les audits techniques. Pas une liste de notoriété, une stack opérationnelle.
| Outil | Usage principal | Pricing | Catégorie |
|---|---|---|---|
| Google Search Console | Indexation, couverture, performance, Core Web Vitals terrain, sitemap. La donnée propriétaire de Google sur votre site. | Gratuit | Monitoring |
| Screaming Frog SEO Spider | Crawl exhaustif, audit balises, codes HTTP, schema, redirections, hreflang. Le couteau suisse de l'audit. | Free 500 URLs · £199/an illimité | Crawl desktop |
| Sitebulb | Crawl cloud avec hints priorisés. Plus visuel que Screaming Frog, complémentaire sur les audits stratégiques. | À partir de 13 $/mois | Crawl cloud |
| PageSpeed Insights | Mesure Core Web Vitals labo (Lighthouse) + terrain (CrUX 28 jours). API disponible pour scaling. | Gratuit | Performance |
| Lighthouse CI | Tests automatisés performance en pipeline CI/CD. Évite la régression Core Web Vitals à chaque déploiement. | Open source | CI Performance |
| Rich Results Test | Validation Schema.org et éligibilité aux rich snippets Google. Premier réflexe après toute publication template-modifiant. | Gratuit | Schema |
| Schema Markup Validator | Validation conformité Schema.org indépendante de Google. Complément du Rich Results Test pour audits robustes. | Gratuit | Schema |
| Semrush Site Audit | Audit technique programmé, crawl récurrent, scoring par catégorie. Pratique pour monitoring continu côté agence. | À partir de 139 $/mois | Audit récurrent |
| Ahrefs Site Audit | Crawl scriptable, alertes mail, hints priorisés. Bonne intégration avec le reste de la suite Ahrefs. | À partir de 129 $/mois | Audit récurrent |
| cURL + ligne de commande | Vérification rapide des en-têtes HTTP, redirections, robots.txt, sitemap. Outil sous-estimé pour debug ciblé. | Gratuit · natif | Debug HTTP |
Six erreurs qui reviennent quasi systématiquement sur les audits. Aucune n'est sophistiquée. Toutes sont évitables avec une revue mensuelle.
La balise <meta name="robots" content="noindex"> oubliée sur la prod après bascule. Le site disparaît de l'index en deux à quatre semaines. Un cas par trimestre minimum sur les diagnostics.
URL canonique pointant vers une 404, vers un domaine de staging, ou en self-referencing absent. Le moteur ne sait plus quelle URL faire ranker. Cannibalisation et perte de positions garanties.
Sitemap XML généré à la main il y a 18 mois, jamais régénéré. Les nouvelles pages n'y sont pas, les anciennes 404 y sont encore. Le signal de fraîcheur que vous envoyez est faux.
URL A → B → C → D. Chaque saut coûte du budget crawl, dégrade le LCP et finit par être ignoré par Googlebot. La règle propre : une seule redirection 301, point final.
Contenu critique injecté côté client après hydratation. Googlebot parvient à le rendre la plupart du temps, les LLMs presque jamais. Conséquence : invisibilité dans ChatGPT Search et Perplexity.
Un Disallow: / hérité d'une ancienne maintenance, ou un blocage involontaire de /assets/ qui empêche le rendu CSS. Le moteur voit alors le site comme cassé visuellement.
Le SEO technique ne s'adresse plus seulement à Googlebot. ChatGPT Search, Perplexity, Claude, Gemini lisent le web avec leurs propres règles. Voici ce que cela change concrètement.
La Generative Engine Optimization (GEO) partage avec le SEO technique 80 % de ses fondations. Performance, indexabilité, schema, propreté du HTML — tout cela compte pour les LLMs comme pour Google. Mais 20 % spécifiques séparent une page citée d'une page ignorée par ces moteurs.
La différence tient dans la manière dont les LLMs lisent une page. Ils ne traitent pas le document entier comme un objet à ranker. Ils découpent en passages auto-portants et notent chaque passage pour sa capacité à répondre à une question précise. Une page bien structurée pour Google peut être totalement illisible pour ChatGPT si chaque paragraphe a besoin du contexte du précédent pour faire sens.
sameAs Wikidata pour ancrer l'identité de l'auteur et de la marque.L'approche que nous appliquons chez Getknown traite GEO et SEO technique comme un seul chantier intégré. Voir notre service GEO & IA pour la dimension stratégique, et l'audit SEO pour le diagnostic combiné.
Les Core Web Vitals qui comptent pour Google sont ceux mesurés en CrUX sur les vraies visites. Lighthouse en local est utile pour comprendre une cause ; le verdict, c'est la donnée terrain.
Un audit qui sort 200 lignes vert/jaune/rouge ne sert pas. Un audit qui sort 10 chantiers priorisés par impact business et effort, oui. Le tri est le livrable.
Le SEO technique de 2026 inclut l'extractabilité par les LLMs. Auditer Google sans auditer GPTBot, ClaudeBot, PerplexityBot revient à n'auditer que la moitié de l'enjeu.
Un audit technique sérieux ne se vend pas sur la promesse. Il se prouve par la lecture commune des Search Console, du crawl et des Core Web Vitals. Trente minutes d'échange, on regarde ensemble si vos chantiers tiennent la route ou si un diagnostic plus approfondi a du sens. Pas de vente forcée. Factuel.
Réserver 30 minutes