Knowledge Graph : le moteur caché derrière l’IA de Google

Le Knowledge Graph de Google n’est plus seulement un outil d’enrichissement des résultats de recherche. Il est devenu l’épine dorsale des systèmes d’intelligence artificielle comme Gemini et AI Overviews. Comprendre comment les entités sont identifiées, validées, classées et utilisées par Google est désormais indispensable pour les professionnels du SEO qui veulent rester visibles dans les SERPs de demain.

Pour creuser le sujet, on n’a fait appel aux lumières d’Olivier de Segonzac, à qui l’on doit également la mise en évidence des 400 événements trackés par Google sur ses pages de résultats. Plongée dans les coulisses d’un système d’une complexité fascinante… et d’une efficacité redoutable !

Ce qu'il faut retenir :

Google alimente ses IA avec des entités structurées et validées par triangulation (3 sources indépendantes minimum).
Le Knowledge Graph est mis à jour en continu, même avec des entités encore non validées.
S’ancrer dans le KG, c’est devenir visible dans les résultats enrichis, les réponses d’assistant et les modules IA.
Mentions dans des sources fiables + structure de contenu autour des entités = stratégie SEO gagnante à long terme.

Un écosystème d’entités, bien plus vaste que Discover

Dans l’univers Google, tout est entité. Une entreprise, une personne, un film, un restaurant ou un ingrédient de recette : tout ce qui peut être nommé, relié, enrichi et validé devient une brique du Knowledge Graph (KG). Contrairement à la vision réductrice qui limiterait son rôle à Google Discover, le KG est aujourd’hui au cœur de toute l’architecture IA de Google : il alimente les Knowledge Panels, les réponses d’assistants vocaux, les extraits optimisés (featured snippets), et surtout les nouveaux dispositifs basés sur Gemini 2.0, comme AI Mode et AI Overviews.

Une machine d’extraction continue

Le pipeline d’extraction de Google est un chef-d’œuvre d’ingénierie. Tout commence par des pages web de haute topicalité : Wikipédia, sites officiels, bases de données publiques comme la SEC, ou encore IMDB pour les contenus culturels. À cela s’ajoutent des sources secondaires à topicalité modérée (blogs, presse, rapports sectoriels), qui permettent de détecter les entités « longue traîne ».

Des systèmes d’extraction spécialisés (SAFT, Tractzor, Chain Mining) analysent ces contenus pour repérer plusieurs entités en même temps. Chaque page peut enrichir plusieurs entités simultanément, une page listant « les 10 meilleurs restaurants parisiens » permet d’enrichir 10 entités restaurant. L’information extraite est ensuite notée selon sa fiabilité et sa pertinence, en particulier via des scores de « singleTopicness ».

Résolution, annotation, désambiguïsation

Une fois les entités repérées, elles sont annotées automatiquement grâce à des systèmes comme WebRef/QRef. Un système de reconnaissance d’entités nommées (REN) identifie les bons sens des mots, « Apple » sera relié à Apple Inc. et non au fruit, grâce à l’analyse du contexte. C’est là qu’interviennent les « Types de Valeurs Complexes » (CVT) qui permettent de créer des relations riches : mariages, parcours scolaires, postes occupés…

Surtout, chaque entité est résolue à travers plusieurs identifiants : Freebase MID, Gaia ID, Oyster ID, Cluster ID, etc. Une seule entité peut avoir plusieurs ID, mais ils sont consolidés en un cluster unifié, indispensable pour garantir la cohérence de l’ensemble du graphe.

Derniers événements

Derniers Articles