Archives de presse et IA : de possibles violations majeures du droit d’auteur, alors qu’OpenAI et Perplexity sont déjà visées en justice.
Environ 245 organisations de presse dans neuf pays tentent de bloquer les robots d'exploration de l'Internet Archive. Il s'agit de logiciels automatisés qui capturent, affichent et archivent les contenus des pages web dans l'interface publique de l'Internet Archive, la Wayback Machine.
L'Archive conserve plus de mille milliards de pages web, remontant jusqu'à 1996, ce qui en fait l'une des plus grandes ressources publiques d'information au monde. Cela inclut d'anciens articles de grands médias comme CNN, The New York Times, The Guardian et USA Today.
Ces pages web sont utilisées à de nombreuses fins, par exemple comme sources primaires pour les historiens ou pour attester des modifications intervenues après publication.
Plusieurs rédactions cherchent désormais à bloquer ces robots, les entreprises d'IA utilisant désormais le contenu de l'Archive pour entraîner des grands modèles de langage (LLM) sans proposer de rémunération équitable ni demander d'autorisation.
Plus de vingt grandes rédactions bloquent déjà ia_archiverbot, le principal robot d'exploration que l'Internet Archive utilise pour la Wayback Machine, selon une analyse de la société Originality AI, spécialisée dans la détection de contenus générés par l'IA.
Cependant, au moins l'un des quatre robots d'exploration de l'Archive est bloqué par 241 sites d'information dans le monde. Une grande partie de ces sites bloqués appartient à USA Today Co, le plus grand éditeur de journaux des États-Unis. Concrètement, des centaines de titres locaux disparaissent ainsi quasiment des archives historiques.
Les risques liés à l'utilisation des archives pour entraîner des IA
Les archives de presse fournissent d'énormes quantités de textes et d'images de haute qualité pour entraîner de grands modèles d'IA à produire des textes plus proches de l'écriture humaine. Ces contenus sont accessibles via des URL et des interfaces de programmation (API), qui permettent à différents logiciels de communiquer entre eux et de se transmettre des données, faisant office de pont entre les systèmes.
Ce dispositif facilite encore davantage l'accès des entreprises d'IA aux données archivées et l'entraînement de leurs modèles.
Autre avantage : les contenus de l'Internet Archive sont déjà structurés, attribués et datés.
Une grande partie des données de l'Internet Archive a déjà été repérée dans des jeux de données clés utilisés pour l'entraînement des IA. Mais cela représente un sérieux point faible pour les médias, qui poursuivent déjà en justice des entreprises d'IA comme Perplexity et OpenAI pour de possibles violations du droit d'auteur.
« Le problème, c'est que les contenus du Times présents sur l'Internet Archive sont utilisés par des entreprises d'IA en violation du droit d'auteur pour nous faire directement concurrence », a déclaré Graham James, porte-parole du New York Times, cité par The Next Web.
« Le Times investit des ressources considérables pour produire un journalisme original, et ce travail ne devrait pas être utilisé sans notre autorisation. »
D'autres médias, comme The Guardian, adoptent une approche plus prudente en limitant l'accès de l'Archive plutôt qu'en le bloquant totalement.
Internet Archive affirme être une « victime collatérale »
Le directeur de la Wayback Machine, Mark Graham, affirme qu'ils ne sont qu'une « victime collatérale » et que les véritables responsables sont les entreprises d'IA qui accèdent aux contenus anciens via les interfaces de l'Archive.
L'Archive a toutefois pris ses propres mesures pour limiter ces pratiques. Cela passe par l'interdiction de téléchargements massifs de certains contenus et par des restrictions à l'extraction automatisée dans certains cas.
Graham rappelle que l'Archive joue un rôle clé de préservation. Sans elle, les articles non archivés peuvent être modifiés sans autorisation ni comptes à rendre : modification ou suppression de citations, correction discrète d'erreurs ou réécriture de déclarations et de communiqués officiels.
Aujourd'hui, ces modifications sont suivies par la Wayback Machine.
Cela pousse certaines rédactions à chercher, avec Internet Archive, des compromis ou des solutions intermédiaires qui limitent l'accès plutôt que de l'interdire complètement.
Dans le même esprit, l'ONG de défense des droits numériques Fight for the Future a lancé une pétition, déjà signée par une centaine de journalistes en activité, pour dénoncer ces blocages, à un moment où les archives publiques et l'histoire sont de plus en plus contestées.