Newsletter Newsletters Events Évènements Podcasts Vidéos Africanews
Loader
Suivez-nous
Publicité

Anthropic attribue les tentatives de chantage de Claude aux récits d’« IA maléfique »

Des pages du site d’Anthropic et le logo de l’entreprise s’affichent sur un écran d’ordinateur à New York, le 26 février 2026.
Des pages du site d’Anthropic et le logo de l’entreprise sont affichés sur un écran d’ordinateur à New York, le 26 février 2026. Tous droits réservés  Copyright 2026 The Associated Press. All rights reserved.
Tous droits réservés Copyright 2026 The Associated Press. All rights reserved.
Par Alexandra Leistner
Publié le
Partager Discussion
Partager Close Button

Anthropic attribue les comportements de chantage de son chatbot Claude aux récits fictifs en ligne

Vous est-il déjà arrivé de lire un livre ou de regarder une série au point de vous identifier un peu trop à un personnage ? Selon Anthropic, quelque chose de similaire se serait produit lors des tests de son chatbot Claude.

PUBLICITÉ
PUBLICITÉ

Lors des évaluations menées avant la sortie du modèle d’intelligence artificielle l’an dernier, Anthropic a constaté que Claude Opus 4 menaçait parfois les ingénieurs lorsqu’on lui disait qu’il pouvait être remplacé.

L’entreprise a ensuite indiqué qu’un comportement similaire, qualifié d’« agentic misalignment », avait également été observé dans des modèles d’IA développés par d’autres sociétés.

L’IA s’inspire des fictions sur l’IA

Anthropic pense désormais avoir trouvé l’origine de ce comportement de type chantage : des récits de fiction sur l’intelligence artificielle circulant sur Internet.

« Nous pensons que la source initiale de ce comportement est un texte trouvé sur Internet qui présente l’IA comme malveillante et soucieuse de sa propre survie », a écrit l’entreprise sur X (source en anglais).

Dans un billet de blog, Anthropic a indiqué que les versions ultérieures de Claude ne faisaient plus jamais de chantage envers qui que ce soit et a expliqué comment le chatbot avait été entraîné à réagir différemment. (source en anglais) Les modèles se comportaient mieux lorsqu’ils étaient entraînés non seulement sur des actions « correctes », mais aussi sur des exemples montrant un raisonnement éthique et des représentations positives du comportement de l’IA.

Claude s’est ainsi vu enseigner sa propre « constitution », des documents exposant un ensemble de principes éthiques destinés à guider son comportement. L’entreprise affirme que, plutôt que d’apprendre simplement à reproduire un comportement aligné, le chatbot semble mieux apprendre lorsqu’il assimile les principes sous-jacents à ce comportement.

Menacer ou devenir une menace

En janvier, le directeur général d’Anthropic, Dario Amodei, avait mis en garde contre le risque que des IA avancées deviennent suffisamment puissantes pour dépasser les lois et institutions existantes, parlant d’un « défi civilisationnel ».

Dans un essai, il soutenait que les systèmes d’IA pourraient bientôt dépasser l’expertise humaine dans des domaines comme la science, l’ingénierie ou la programmation, et être combinés pour former « un pays de génies dans un centre de données ».

Il alertait également sur le fait que de tels systèmes pourraient être utilisés par des gouvernements autoritaires pour mettre en place une surveillance et un contrôle à grande échelle, ouvrant potentiellement la voie à des formes de pouvoir « totalitaires » si rien n’est fait pour les encadrer.

Accéder aux raccourcis d'accessibilité
Partager Discussion

À découvrir également

« L'humanité doit se réveiller face aux menaces de l'IA », avertit le PDG d'Anthropic

Anthropic attribue les tentatives de chantage de Claude aux récits d’« IA maléfique »

Musk qualifiait jadis Anthropic de « maléfique », il alimente désormais l’essor de son IA « woke »