Anthropic attribue les tentatives de chantage de Claude aux récits d’« IA maléfique »

Des pages du site d’Anthropic et le logo de l’entreprise sont affichés sur un écran d’ordinateur à New York, le 26 février 2026. - Tous droits réservés Copyright 2026 The Associated Press. All rights reserved.

Par Alexandra Leistner

Publié le 11/05/2026 - 16:06 UTC+2

Discussion

Anthropic attribue les comportements de chantage de son chatbot Claude aux récits fictifs en ligne

Vous est-il déjà arrivé de lire un livre ou de regarder une série au point de vous identifier un peu trop à un personnage ? Selon Anthropic, quelque chose de similaire se serait produit lors des tests de son chatbot Claude.

Lors des évaluations menées avant la sortie du modèle d’intelligence artificielle l’an dernier, Anthropic a constaté que Claude Opus 4 menaçait parfois les ingénieurs lorsqu’on lui disait qu’il pouvait être remplacé.

L’entreprise a ensuite indiqué qu’un comportement similaire, qualifié d’« agentic misalignment », avait également été observé dans des modèles d’IA développés par d’autres sociétés.

L’IA s’inspire des fictions sur l’IA

Anthropic pense désormais avoir trouvé l’origine de ce comportement de type chantage : des récits de fiction sur l’intelligence artificielle circulant sur Internet.

« Nous pensons que la source initiale de ce comportement est un texte trouvé sur Internet qui présente l’IA comme malveillante et soucieuse de sa propre survie », a écrit l’entreprise sur X (source en anglais).

Dans un billet de blog, Anthropic a indiqué que les versions ultérieures de Claude ne faisaient plus jamais de chantage envers qui que ce soit et a expliqué comment le chatbot avait été entraîné à réagir différemment. (source en anglais) Les modèles se comportaient mieux lorsqu’ils étaient entraînés non seulement sur des actions « correctes », mais aussi sur des exemples montrant un raisonnement éthique et des représentations positives du comportement de l’IA.

Claude s’est ainsi vu enseigner sa propre « constitution », des documents exposant un ensemble de principes éthiques destinés à guider son comportement. L’entreprise affirme que, plutôt que d’apprendre simplement à reproduire un comportement aligné, le chatbot semble mieux apprendre lorsqu’il assimile les principes sous-jacents à ce comportement.

Menacer ou devenir une menace

En janvier, le directeur général d’Anthropic, Dario Amodei, avait mis en garde contre le risque que des IA avancées deviennent suffisamment puissantes pour dépasser les lois et institutions existantes, parlant d’un « défi civilisationnel ».

Dans un essai, il soutenait que les systèmes d’IA pourraient bientôt dépasser l’expertise humaine dans des domaines comme la science, l’ingénierie ou la programmation, et être combinés pour former « un pays de génies dans un centre de données ».

Il alertait également sur le fait que de tels systèmes pourraient être utilisés par des gouvernements autoritaires pour mettre en place une surveillance et un contrôle à grande échelle, ouvrant potentiellement la voie à des formes de pouvoir « totalitaires » si rien n’est fait pour les encadrer.

Accéder aux raccourcis d'accessibilité

Discussion

Anthropic attribue les tentatives de chantage de Claude aux récits d’« IA maléfique »

Anthropic attribue les comportements de chantage de son chatbot Claude aux récits fictifs en ligne

L’IA s’inspire des fictions sur l’IA

Menacer ou devenir une menace

À découvrir également

« L'humanité doit se réveiller face aux menaces de l'IA », avertit le PDG d'Anthropic

Une approche technoréaliste de l’éducation à l’IA dans les écoles estoniennes

Des agents d’IA basculent dans le vol, l’intimidation et l’effondrement dans des mondes simulés

Ligne 666 de retour : FlixBus ouvre une "Autoroute vers l'enfer"

Une méthode simple pour perdre du poids chaque semaine

Navire de guerre endommagé : la Russie derrière 10 sabotages ?

Ukraine frappe une raffinerie et un nœud clé d’oléoducs russes

Victoire du PSG : des centaines d'arrestations, plus de 200 blessés