Derniers Articles
Screaming Frog SEO Spider 24.0 : intégration de l’IA et automatisation accrue Goossips SEO : API d’indexation Comment Bing intègre la sécurité au cœur de la recherche IA L’édition de mai 2026 de Réacteur est en ligne ! Google publie son premier guide officiel pour apparaître dans les résultats IA Google précise que ses règles anti-spam s’appliquent aussi aux réponses IA Google Discover offre des profils enrichis à 54 éditeurs : ce qu’ils en font vraiment Comment les IA choisissent leurs sources : retour sur le concours GEO GreenRed HubSpot AEO : un nouvel outil pour booster votre visibilité dans les résultats de recherche IA Google prêt à revoir sa politique anti-parasite SEO pour les éditeurs de presse européensLire l'article complet : LLMs.txt : un robots.txt pour les bots des IA
Publié le 03/03/2025 à 12:16:05 par Neper
LLMs.txt : un robots.txt pour les bots des IA
L’idée de créer un équivalent du robots.txt pour les crawlers des IA trainait depuis quelques années déjà dans la tête de beaucoup d’acteurs. Google avait publié en 2023 un article dans son blog « The Keyword » qui plaidait pour une initiative de ce genre :
https://blog.google/technology/ai/ai-web-publisher-controls-sign-up
Nous l’avions commenté dans cet article :
Mais depuis quelques mois, ce projet est devenu concret grâce à une initiative de Jeremy Howard, le co-fondateur de Reponse.AI.
M. Howard a lancé un site « llmstxt.org » en septembre 2024, présentant le format qu’il souhaitait voir adopter par les producteurs de contenus.
Il semble que le pari de Jeremy Howard est en passe d’être gagné, car sa norme a été adoptée par un nombre croissant d’acteurs de l’IA depuis son lancement.
Parmi les principaux, on trouve Anthropic (Claude), Perplexity, Cloudflare ou Hugging Face,
A quoi sert ce fichier LLMs.txt
Contrairement au fichier robots.txt dont l’objectif de départ était d’indiquer les contenus à ne pas crawler, ici l’idée ici est de faciliter l’exploration et la récupération des contenus par des outils destinés à créer des LLMs.
En effet ces outils butent sur une difficulté : les LLM ont de plus en plus besoin de récupérer les informations présentes sur des sites Web, mais ils sont confrontés à une limitation critique : les fenêtres de contexte sont trop petites pour gérer la plupart des sites Web dans leur intégralité. La conversion de pages HTML complexes avec navigation, publicités et JavaScript en texte brut compatible avec la construction d’un LLM est à la fois difficile et imprécise.
Et l’augmentation des fenêtres de contexte (et donc en pratique la quantité de mémoire allouée pour « aspirer » et traiter les données en entrée) ne peut se faire qu’avec une augmentation radicale des coûts, ce qui rend certains projets infaisables pour des raisons financières.
Le fichier llms.txt crée une version simplifiée du contenu d’un site web, dans un format clair et structuré.
A quoi ressemble un fichier LLMs.txt ?
La « norme » LLMs.txt prévoit de créer un fichier texte lisible par un humain. C’est une caractéristique qui est inspirée du robots.txt.
En pratique, il faut deux fichiers textes sur un site :
- le fichier llms.txt contient les informations sur la structure du site et ses liens de navigation
- le fichier llms-full.txt contient les informations sur le contenu du site
Voici à quoi ressemble contenu d’un fichier llms.txt :
# Project Name
> Brief project summary
Additional context and important notes
## Core Documentation
- [Quick Start](url): Description of the resource
- [API Reference](url): API documentation details
## Optional
- [Additional Resources](url): Supplementary information
La syntaxe du fichier réutilise une norme de balisage préexistante, le langage Markdown. Cette...