Derniers Articles
Goossips SEO : HTML, Markdown & Sous-répertoires Migration de domaine : Google précise comment utiliser l’outil de « Changement d’adresse » Consultant SEO en agence ou freelance : les 5 actions à mettre en place avant de partir en vacances GEO vs SEO : faut-il choisir ou combiner les deux ? Open Knowledge Format : Google pose les bases d’un nouveau standard pour les agents IA Un tribunal allemand juge Google responsable des erreurs de ses AI Overviews La reconversion à l’ère de l’IA générative : les nouvelles compétences attendues des entreprises Google confirme qu’il ignore le fichier llms.txt et clôt le débat L’édition de juin 2026 de Réacteur est en ligne ! SEO technique : comment un agent IA peut auditer et corriger votre site à votre placeLire l'article complet : Google annonce la création d’un nouveau User-Agent : Google Extended
Publié le 06/10/2023 à 10:03:55 par Neper
Google annonce la création d’un nouveau User-Agent : Google Extended
Nous avions déjà évoqué l’initiative de Google pour remplacer le robots.txt par autre chose afin de piloter quels contenus peuvent être accessibles aux outils d’IA.
Il semble que les équipes de Google n’aient pas voulu attendre la fin des discussions en cours avec les principaux acteurs de l’écosystème pour lancer une solution se basant sur l’actuel standard : le robots.txt
Google vient d’annoncer la création d’un nouvel user agent : Google Extended.
Son objectif est clairement de permettre d’indiquer aux outils de Google qui collectent des données pour des usages IA quels sont les contenus dont le propriétaire du site autorise l’exploitation pour ces usages.
Si vous ne souhaitez pas que vos contenus soient exploités par l’IA générative Bard ou Vertex AI ou les futurs produits Google AI, vous pouvez ajouter un block « Google-Extended » dans votre robots.txt
Ce user-agent fonctionne un peu comme pour celui de Google News (Googlebot-News) : si vous regardez vos logs, vous ne verrez jamais de « hits » avec ce user-agent. Les contenus destinés aux outils d’IA de Google sont téléchargés avec un user-agent de type « Googlebot », ces contenus sont ensuite placés dans un repository pour être réutilisés par différents outils, dont les outils d’IA. C’est la réutilisation qui est bloquée par les directives disallow pour ce bloc, pas le téléchargement.

La liste des user agents de Google ne cesse de s’allonger, la gestion du robots.txt tend vraiment à se complexifier.
Côté Bing, ils viennent d’annoncer il y’a quelque jours une solution moins propriétaire : si vous voulez indiquer que vos contenus ne doivent pas être exploités par les outils d’IA de Bing, alors il vous suffit d’ajouter un attribut nocache ou noarchive dans la balise meta robots ou x-robots-tag.
- sans attribut nocache ou noarchive => votre contenu pourra apparaître dans les réponses de Bing Chat
- avec nocache => votre contenu pourra apparaître, mais seuls les balises <title>, l’url et les snippets extraits pour Bing Search pourront servir à entrainer les IA de Bing
- avec noarchive => votre contenu sera marqué comme non utilisable par les outils d’IA
- noarchive et nocache combinés sont interprétés comme nocache
Et vous, quelle solution vous semble la plus appropriée ? Celle de Google, ou celle de Bing ? N’hésitez pas à le dire dans les commentaires.
L’annonce de Google :
https://blog.google/technology/ai/an-update-on-web-publisher-controls/
Plus d’infos sur les user-agents de Google :
https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers
L’article Google annonce la création d’un nouveau User-Agent : Google Extended est apparu en premier sur Neper.