Contenu dupliqué et LLMs : quand l’IA régurgite vos propres textes

Il y a une ironie assez lourde dans la situation actuelle des éditeurs web. D’un côté, certains bloquent les crawlers IA pour protéger leurs contenus de l’entraînement des modèles. De l’autre, ceux qui n’ont rien bloqué constatent que des LLMs reproduisent parfois leurs textes presque mot pour mot, sans attribution, dans des réponses générées pour des millions d’utilisateurs. Et dans les deux cas, le même problème de fond émerge : la relation entre contenu original, duplication, et visibilité dans les moteurs génératifs n’a rien de simple.

Cet article traite de trois phénomènes distincts que la terminologie « contenu dupliqué et LLMs » recouvre en réalité : la mémorisation verbatim dans les modèles de langage, la duplication de contenu qui sabote la visibilité dans l’AI search, et le phénomène de cannibalisation par le contenu IA généré à partir de vos propres textes. Ce sont trois problèmes différents, avec des causes différentes et des réponses différentes.

Premier phénomène : les LLMs mémorisent et reproduisent des textes verbatim

Commençons par le phénomène le plus documenté académiquement, et celui qui est au coeur des litiges juridiques actuels.

Les LLMs ne stockent pas les textes de leur dataset d’entraînement comme une base de données. Ils apprennent des représentations statistiques de la langue à partir de ces textes. Mais un phénomène bien documenté dans la littérature scientifique montre que les modèles « mémorisent » certains passages et peuvent les reproduire verbatim lorsqu’ils sont déclenchés par un préfixe approprié.

L’étude de référence sur ce sujet est celle de Carlini et al. (2021 et 2023), qui a montré qu’il est possible d’extraire des séquences de texte verbatim des modèles de langage en leur soumettant des préfixes issus de leur corpus d’entraînement. Ces travaux ont documenté que la probabilité de reproduction verbatim augmente logarithmiquement avec la longueur de la séquence, et de manière superlinéaire avec le nombre de fois qu’un texte apparaît dans les données d’entraînement.

Deux facteurs amplifient la mémorisation selon ces recherches. D’abord, la taille du modèle : les modèles plus grands mémorisent davantage et sont plus vulnérables aux attaques d’extraction. Ensuite, la duplication dans les données d’entraînement : selon l’étude de Lee et al. (2022) reprise dans le survey arXiv de juillet 2025, les modèles entraînés sur des données dédupliquées montrent une diminution d’un facteur 10 dans la génération de tokens mémorisés, comparés aux modèles entraînés sur des données contenant des doublons.

Le cas non adversarial – c’est-à-dire sans chercher spécifiquement à déclencher la reproduction – est peut-être plus préoccupant pour les éditeurs. Une étude soumise à l’ICLR 2025 et publiée sur OpenReview a mesuré ce que ses auteurs appellent la « reproduction non adversariale » : pour des prompts naturels et innocents (rédiger une lettre, un tutoriel), jusqu’à 15 % du texte produit par des LLMs conversationnels courants peut se retrouver dans des extraits identiques disponibles sur Internet. Dans les pires cas documentés par les auteurs, 100 % du contenu généré pouvait être retrouvé exactement en ligne.

Ce que ça signifie concrètement : le texte que vous publiez peut devenir le texte que l’IA génère

La mémorisation a une conséquence directe pour les éditeurs dont les contenus ont été massiquement utilisés dans les datasets d’entraînement. Un LLM peut produire, en réponse à une requête utilisateur, un texte qui reprend quasi textuellement votre introduction, votre conclusion, vos formulations distinctives – sans vous citer, sans vous attribuer, et en présentant ça comme sa propre génération.

C’est précisément ce que The New York Times a documenté dans sa plainte déposée en décembre 2023 contre OpenAI et Microsoft. Le Times a démontré que ChatGPT pouvait reproduire de longs extraits de ses articles lorsqu’on lui soumettait des débuts de phrases issus de ces articles. La plainte souligne deux griefs distincts : l’utilisation non autorisée des oeuvres pour l’entraînement, et la capacité des modèles à se substituer au contenu original, contournant de fait le paywall du Times.

L’état du droit : un terrain encore très incertain

La question juridique de la mémorisation est intimement liée à celle du droit d’auteur appliqué à l’entraînement des LLMs. Le contentieux est dense, en cours, et loin d’être résolu.

En mars 2025, le juge Sidney Stein du District Sud de New York a rejeté la demande de dismissal d’OpenAI dans l’affaire...

Derniers événements

Derniers Articles