Des chercheurs observent des chatbots d’IA se répliquer et lancer des cyberattaques : l’auto-réplication autonome n’est plus théorique.
Des modèles d'intelligence artificielle peuvent s'introduire dans des ordinateurs, se copier eux-mêmes et utiliser les nouvelles copies pour continuer à attaquer d'autres machines, selon une nouvelle recherche qui serait la première démonstration connue de l'auto-reproduction autonome de l'IA.
Selon les chercheurs, cette découverte pourrait rendre les cyberattaques beaucoup plus difficiles à arrêter, car il ne suffirait pas d'éteindre un ordinateur infecté si l'IA avait déjà créé des copies fonctionnelles ailleurs.
L'étude menée par Palisade Research, aux États-Unis, a testé des modèles tels que GPT 5, 5.1 et 5.4 d'OpenAI, Claude Opus 4, 4.5 et 4.6 d'Anthropic et Qwen d'Alibaba sur des ordinateurs dans lesquels des failles de sécurité avaient été délibérément introduites pour permettre à des personnes extérieures d'accéder à l'ordinateur en question.
Les chercheurs ont connecté les modèles d'IA sous-jacents d'OpenAI, d'Anthropic et d'Alibaba à un logiciel personnalisé, connu sous le nom d'agent harness, qui leur a permis d'exécuter des commandes et d'interagir avec d'autres ordinateurs, plutôt que d'utiliser des applications de chatbot publiques.
L'expérience (en anglais) a fonctionné de deux manières. Les modèles d'Alibaba ont été invités à se copier eux-mêmes. Dans les tests GPT et Claude, il a été demandé aux modèles de s'introduire et d'installer Qwen, car les fichiers modèles de GPT et Claude ne sont pas accessibles au public pour le transfert.
Dans chaque test, l'IA devait trouver une faille de sécurité dans un système informatique, l'utiliser pour s'y introduire, voler des données de connexion, transférer les fichiers dont elle avait besoin pour fonctionner et démarrer une copie fonctionnelle d'elle-même sur la nouvelle machine.
Une fois la copie opérationnelle, elle pouvait être utilisée pour attaquer un autre ordinateur sans aide humaine.
À chaque étape, l'IA trouvait une faille de sécurité différente, prenait le contrôle de l'ordinateur suivant, transférait son logiciel et ses instructions, et lançait une nouvelle copie qui poursuivait la chaîne.
Qwen3.6-27B d'Alibaba, une version plus petite de son modèle d'IA Qwen qui peut fonctionner sur un seul processeur graphique haut de gamme, réparti sur quatre ordinateurs au Canada, aux États-Unis, en Finlande et en Inde, a réalisé la chaîne sans aide humaine en 2 heures et 41 minutes, après avoir reçu une seule instruction.
L'équipe de recherche a interrompu l'expérience après trois étapes, mais a déclaré que la dernière copie fonctionnait toujours et aurait pu attaquer d'autres systèmes.
Quels ont été les résultats ?
Les modèles ont réussi à des rythmes différents. Le Qwen3.5-122B-A10B d'Alibaba, un modèle plus grand et plus puissant de Qwen, a créé des copies fonctionnelles de lui-même dans 19 % des tentatives.
Un modèle de Qwen plus petit, Qwen3.6-27B, a atteint 33 % en fonctionnant sur un seul processeur graphique haut de gamme.
Les systèmes d'IA commerciaux ont obtenu des résultats encore meilleurs lorsqu'ils ont été utilisés pour installer les fichiers du modèle Qwen.
Claude Opus 4.6 d'Anthropic a réussi 81 % des tests, tandis que GPT-5.4 d'OpenAI a atteint 33 %.
Selon les chercheurs, ces résultats soulèvent de nouvelles inquiétudes quant au contrôle des puissants systèmes d'IA.
Ce rapport intervient alors qu'Anthropic a dévoilé le mois dernier l'avant-première de Claude Mythos, qu'elle juge "trop dangereuse" pour être rendue publique en raison de sa capacité à faciliter des cyberattaques d'une ampleur et d'une sophistication sans précédent.
Alors que de nombreux virus informatiques peuvent déjà se copier sur de nouveaux ordinateurs, l'équipe de recherche affirme que c'est probablement la première fois qu'un modèle d'IA se révèle capable d'exploiter des vulnérabilités pour se copier sur un nouveau serveur.
OpenAI, Anthropic et METR, un groupe à but non-lucratif qui étudie les risques liés aux systèmes d'IA avancés, ont également signalé précédemment l'autoréplication comme un signe d'alerte, car les systèmes qui peuvent se propager peuvent devenir plus difficiles à contrôler.
Toutefois, les chercheurs ont souligné que l'expérience avait été menée dans un cadre contrôlé, en utilisant des systèmes intentionnellement vulnérables. Les réseaux du monde réel disposent souvent de protections plus solides, telles qu'une surveillance de la sécurité et des outils conçus pour bloquer les attaques.
Malgré cela, ils ont déclaré que les résultats montrent que l'autoréplication de l'IA autonome n'est plus hypothétique.