Anthropic attribue les comportements de chantage de son chatbot Claude aux récits fictifs en ligne
Vous est-il déjà arrivé de lire un livre ou de regarder une série au point de vous identifier un peu trop à un personnage ? Selon Anthropic, quelque chose de similaire se serait produit lors des tests de son chatbot Claude.
Lors des évaluations menées avant la sortie du modèle d’intelligence artificielle l’an dernier, Anthropic a constaté que Claude Opus 4 menaçait parfois les ingénieurs lorsqu’on lui disait qu’il pouvait être remplacé.
L’entreprise a ensuite indiqué qu’un comportement similaire, qualifié d’« agentic misalignment », avait également été observé dans des modèles d’IA développés par d’autres sociétés.
L’IA s’inspire des fictions sur l’IA
Anthropic pense désormais avoir trouvé l’origine de ce comportement de type chantage : des récits de fiction sur l’intelligence artificielle circulant sur Internet.
« Nous pensons que la source initiale de ce comportement est un texte trouvé sur Internet qui présente l’IA comme malveillante et soucieuse de sa propre survie », a écrit l’entreprise sur X (source en anglais).
Dans un billet de blog, Anthropic a indiqué que les versions ultérieures de Claude ne faisaient plus jamais de chantage envers qui que ce soit et a expliqué comment le chatbot avait été entraîné à réagir différemment. (source en anglais) Les modèles se comportaient mieux lorsqu’ils étaient entraînés non seulement sur des actions « correctes », mais aussi sur des exemples montrant un raisonnement éthique et des représentations positives du comportement de l’IA.
Claude s’est ainsi vu enseigner sa propre « constitution », des documents exposant un ensemble de principes éthiques destinés à guider son comportement. L’entreprise affirme que, plutôt que d’apprendre simplement à reproduire un comportement aligné, le chatbot semble mieux apprendre lorsqu’il assimile les principes sous-jacents à ce comportement.
Menacer ou devenir une menace
En janvier, le directeur général d’Anthropic, Dario Amodei, avait mis en garde contre le risque que des IA avancées deviennent suffisamment puissantes pour dépasser les lois et institutions existantes, parlant d’un « défi civilisationnel ».
Dans un essai, il soutenait que les systèmes d’IA pourraient bientôt dépasser l’expertise humaine dans des domaines comme la science, l’ingénierie ou la programmation, et être combinés pour former « un pays de génies dans un centre de données ».
Il alertait également sur le fait que de tels systèmes pourraient être utilisés par des gouvernements autoritaires pour mettre en place une surveillance et un contrôle à grande échelle, ouvrant potentiellement la voie à des formes de pouvoir « totalitaires » si rien n’est fait pour les encadrer.