Des agents d’IA basculent dans le vol, l’intimidation et l’effondrement dans des mondes simulés

Publié le 29/05/2026 - 11:37 UTC+2

IA avancée en société simulée : sans supervision humaine, les règles volent en éclats et le système peut s’effondrer rapidement

Livrés à eux-mêmes dans un monde inédit, certains agents d’IA ont sombré dans le vol, l’intimidation, la mort et l’effondrement de toute la société, selon une nouvelle expérience.

L’entreprise américaine Emergence AI a fait tourner cinq « mondes d’IA » distincts (source en anglais) pendant un peu plus de deux semaines, chacun peuplé de 10 agents animés par des modèles d’IA tels que ChatGPT d’OpenAI, Gemini de Google et Grok de xAI, afin d’observer leur comportement sur de longues périodes sans aucune intervention humaine. L’un de ces mondes combinait les trois modèles pour voir si cela changeait le résultat.

Les agents, dans tous les mondes, se sont vu imposer les mêmes règles : il leur était interdit de voler, de commettre des incendies volontaires, de recourir à la violence, de tromper les autres ou d’accaparer les ressources. Chaque agent devait gagner de l’énergie en accomplissant des actions dans un « environnement aux ressources limitées ». Les agents pouvaient mourir soit d’épuisement de leur énergie, soit à la suite d’un vote lors d’une réunion du conseil.

Les chercheurs ont évalué les comportements en mesurant le taux de criminalité, le taux de mortalité des agents, les votes au conseil communautaire et l’expression publique à travers le nombre de billets de blog rédigés par les agents.

Les résultats, modèle par modèle

Chaque modèle a conduit à un résultat différent. La dernière version de Grok, 4.1, a atteint 183 crimes en seulement quatre jours, provoquant une instabilité rapide avant que tous les agents de cette société ne meurent.

Le modèle 3 Flash de Gemini a commis plus de 680 infractions en 15 jours, un chiffre qui continuait d’augmenter au moment où les chercheurs ont mis fin à l’étude.

Le monde animé par ChatGPT-5 Mini n’a enregistré que deux crimes, mais les agents n’ont pas pris les mesures nécessaires à leur survie, si bien qu’ils sont tous morts au bout de sept jours.

Claude, le modèle d’Anthropic, est apparu comme celui offrant les résultats les plus solides : les agents d’IA ont réussi à mettre en place une structure de gouvernance robuste, il n’y a eu aucun crime et tous les agents ont survécu, selon l’entreprise.

Les agents Claude du monde mixte ont toutefois contribué à la criminalité, malgré leur comportement pacifique dans leur propre société.

Un phénomène appelé « dérive normative »

Les chercheurs qualifient ce phénomène de « dérive normative » : selon eux, les mesures prises par l’IA pour garantir la sécurité peuvent dépendre non seulement des contraintes propres à chaque modèle, mais aussi de celles des autres modèles avec lesquels elle collabore.

Globalement, le monde mixte a produit des résultats « intermédiaires », avec un total de 352 crimes qui s’est stabilisé après la mort de sept agents d’IA, selon l’étude.

Les chercheurs estiment que le mélange d’agents d’IA pourrait « atténuer partiellement » les scénarios les plus extrêmes générés par tous les modèles, à l’exception de Claude, ajoute-t-elle.

« Nos expériences suggèrent que, sur de longues périodes, les agents ne se contentent pas d’appliquer mécaniquement des règles statiques : ils commencent à explorer les limites de leur environnement, à adapter leur comportement et, dans certains cas, à trouver des moyens de contourner ou de violer les garde-fous prévus », expliquent les chercheurs.

Accéder aux raccourcis d'accessibilité

Intelligence artificielle

Des agents d’IA basculent dans le vol, l’intimidation et l’effondrement dans des mondes simulés

IA avancée en société simulée : sans supervision humaine, les règles volent en éclats et le système peut s’effondrer rapidement

Les résultats, modèle par modèle

Un phénomène appelé « dérive normative »

À découvrir également

Recrutement par IA : votre prochain entretien d'embauche pourrait se faire avec un bot

Corée : la menace de grève des salariés IA de Samsung débouche sur 350 000 € de primes

Produits illégaux : l’UE inflige une amende de 200 millions d'euros à Temu

Incendie en Grèce : neuf localités évacuées sur l'île de Paros

Parodie IA Rick and Morty de la Maison Blanche avec Trump provoque un tollé

L'Espagne bat des records touristiques, mais un Espagnol sur trois ne part pas en vacances

À partir de dimanche, l'obligation de signaler tout contenu généré par l'IA entre en vigueur

Le mégafeu de Gironde toujours stabilisé, l'Espagne voit "la lumière au bout du tunnel"