Comment GPT voit vraiment le web (et qu’est-ce que ça change au SEO)

Beaucoup imaginent encore GPT en train de « naviguer » sur des pages complètes comme un humain, alors qu’en réalité le modèle ne voit que de minuscules fenêtres de texte, strictement limitées et contrôlées. Comprendre cette mécanique de snippets, d’open(), de contextes Low/Medium/High et de fenêtre coulissante est aujourd’hui indspensable pour le SEO et pour tous ceux qui conçoivent des produits autour des APIs d’assistants.

Ce qu'il faut retenir :

GPT ne « browse » pas : il ne reçoit ni HTML, ni page complète, seulement des petits objets structurés avec titre, URL et court extrait./li>
Les fonctions open() et click() ne font qu’ouvrir des fenêtres de texte supplémentaires, elles n’enlèvent jamais les limites de taille ni de citation.
Même en multipliant les expansions et en passant en « High context », GPT ne peut pas reconstruire une page entière.
Pour le SEO, les premières lignes et les snippets deviennent le vrai terrain de jeu : ce sont eux qui nourrissent les réponses des LLM et non l’intégralité de vos contenus.

Comment GPT reçoit le web

Lorsqu’un assistant GPT fait un appel Web Search, il ne reçoit pas la page, mais un petit objet structuré qui ressemble à une « carte de résultat » de moteur de recherche. Cet objet contient le titre, l’URL, un court extrait de 1 à 3 phrases, parfois des métadonnées (date, score), et un identifiant interne de type turn0search0.

Ce qui est tout aussi important, c’est ce que le modèle ne voit pas : il n’a pas accès au HTML brut, ni à la page complète, ni à la navigation du site, encore moins à la structure globale du document. Pour produire une réponse, il doit donc se contenter de ces petits morceaux de texte comme base de « grounding » sur le monde réel.

Open(), click() et la navigation par fenêtres

Chaque snippet renvoyé par la recherche est accompagné d’un identifiant de récupération qui permet au modèle de demander plus de contexte. Deux opérations principales existent dans ce cadre : open() et click(), qui simulent une forme de scroll et de suivi de liens, mais toujours dans un cadre très restreint.

open() récupère une portion de texte plus grande sur la même page, centrée autour d’un numéro de ligne. C’est l’équivalent d’un défilement dans l’article, mais sous forme de fenêtre textuelle limitée.
click() suit un lien sortant depuis le snippet actuel et charge la page liée comme un nouveau snippet avec les mêmes règles de taille et de structure. Là encore, on reste dans le paradigme de « cartes de contenu », pas de navigation libre.

La logique de fenêtre coulissante

Les appels à open() ne sont pas limités à une seule fois : le modèle peut demander des fenêtres successives à différentes hauteurs du document. Par exemple, open() à la ligne 1, puis à la ligne 50, puis à la ligne 120, chaque appel ramenant une nouvelle fenêtre de texte centrée autour de cette zone.

Ce comportement crée une véritable « fenêtre coulissante » (slinding window) : GPT ne voit jamais toute la page d’un coup, mais une série de tranches séquentielles. Dans un test décrit par Dan Petrovic dans son article, les premières fenêtres ne contiennent que le titre, la date et l’introduction de l’article « BlockRank », puis des sections plus profondes sur le fonctionnement, les performances et enfin la conclusion, toujours via ces tranches successives.

Pourquoi GPT ne peut pas voir la page entière

En théorie, multiplier les open() à différentes lignes pourrait sembler suffisant pour parcourir quasiment toute une page. En pratique, ce n’est pas possible, car plusieurs garde‑fous techniques entrent en jeu :

Chaque fenêtre est plafonnée en taille,
Le nombre de réponses d’outils par tour est limité,
Le modèle lui‑même est soumis à des limites strictes sur la quantité de texte qu’il peut restituer.

Même si le modèle a vu plusieurs fenêtres d’un même article, il n’a pas le droit de recracher de longs passages ni de reproduire l’intégralité du contenu. Il est explicitement obligé de résumer plutôt que de citer, ce qui protège les contenus d’une reproduction brute et maintient le rôle de « synthétiseur » plutôt que de « copieur » intégral.

Les deux types de limites : retrieval et output

Dan...

Derniers événements

Derniers Articles