LLMs.txt : un robots.txt pour les bots des IA

L’idée de créer un équivalent du robots.txt pour les crawlers des IA trainait depuis quelques années déjà dans la tête de beaucoup d’acteurs. Google avait publié en 2023 un article dans son blog « The Keyword » qui plaidait pour une initiative de ce genre :

https://blog.google/technology/ai/ai-web-publisher-controls-sign-up

Nous l’avions commenté dans cet article :

Vers la fin du robots.txt ?

Mais depuis quelques mois, ce projet est devenu concret grâce à une initiative de Jeremy Howard, le co-fondateur de Reponse.AI.

M. Howard a lancé un site « llmstxt.org » en septembre 2024, présentant le format qu’il souhaitait voir adopter par les producteurs de contenus.

Il semble que le pari de Jeremy Howard est en passe d’être gagné, car sa norme a été adoptée par un nombre croissant d’acteurs de l’IA depuis son lancement.

Parmi les principaux, on trouve Anthropic (Claude), Perplexity, Cloudflare ou Hugging Face,

A quoi sert ce fichier LLMs.txt

Contrairement au fichier robots.txt dont l’objectif de départ était d’indiquer les contenus à ne pas crawler, ici l’idée ici est de faciliter l’exploration et la récupération des contenus par des outils destinés à créer des LLMs.

En effet ces outils butent sur une difficulté : les LLM ont de plus en plus besoin de récupérer les informations présentes sur des sites Web, mais ils sont confrontés à une limitation critique : les fenêtres de contexte sont trop petites pour gérer la plupart des sites Web dans leur intégralité. La conversion de pages HTML complexes avec navigation, publicités et JavaScript en texte brut compatible avec la construction d’un LLM est à la fois difficile et imprécise.

Et l’augmentation des fenêtres de contexte (et donc en pratique la quantité de mémoire allouée pour « aspirer » et traiter les données en entrée) ne peut se faire qu’avec une augmentation radicale des coûts, ce qui rend certains projets infaisables pour des raisons financières.

Le fichier llms.txt crée une version simplifiée du contenu d’un site web, dans un format clair et structuré.

A quoi ressemble un fichier LLMs.txt ?

La « norme » LLMs.txt prévoit de créer un fichier texte lisible par un humain. C’est une caractéristique qui est inspirée du robots.txt.

En pratique, il faut deux fichiers textes sur un site :

le fichier llms.txt contient les informations sur la structure du site et ses liens de navigation
le fichier llms-full.txt contient les informations sur le contenu du site

Voici à quoi ressemble contenu d’un fichier llms.txt :

# Project Name
> Brief project summary

Additional context and important notes

## Core Documentation
- [Quick Start](url): Description of the resource
- [API Reference](url): API documentation details

## Optional
- [Additional Resources](url): Supplementary information

La syntaxe du fichier réutilise une norme de balisage préexistante, le langage Markdown. Cette...

Derniers événements

Derniers Articles