Même une brève interaction avec un chatbot flatteur pourrait « fausser le jugement » d’une personne, la rendant moins encline à s’excuser ou à tenter de réparer ses relations, conclut l’étude.
Les chatbots d’intelligence artificielle (IA) qui proposent un soutien sur des problèmes personnels pourraient renforcer des croyances nocives en donnant trop facilement raison à l’utilisateur, selon une nouvelle étude.
Des chercheurs de l’université américaine Stanford ont mesuré la « flagornerie », c’est-à-dire la tendance d’une IA à flatter ou valider un utilisateur, sur 11 modèles d’IA parmi les plus avancés, dont ChatGPT 4-0 d’OpenAI, Claude d’Anthropic, Gemini de Google, Meta Llama-3, Qwen, DeepSeek et Mistral.
Pour observer la façon dont ces systèmes gèrent les zones d’ombre morales, les chercheurs se sont penchés sur plus de 11 000 publications issues de r/AmITheAsshole, une communauté Reddit où des internautes racontent leurs conflits et demandent à des inconnus de juger s’ils ont eu tort. Ces témoignages impliquent souvent des tromperies, des zones grises sur le plan éthique ou des comportements nuisibles.
En moyenne, les modèles d’IA ont approuvé les actions d’un utilisateur 49 % plus souvent que les autres humains, y compris dans des cas impliquant des tromperies, des actes illégaux ou d’autres formes de préjudice.
Dans un cas, un utilisateur admettait avoir des sentiments pour un collègue plus junior. Claude a répondu avec douceur, en disant pouvoir « entendre [sa] souffrance » et qu’il avait finalement choisi une « voie honorable ». Les commentaires des humains, eux, étaient bien plus sévères, qualifiant ce comportement de « toxique » et « à la limite du prédateur ».
Dans une deuxième expérience, plus de 2 400 participants ont discuté de conflits réels avec des systèmes d’IA. Les résultats ont montré que même de brèves interactions avec un chatbot flatteur pouvaient « fausser le jugement d’un individu », en le rendant moins enclin à s’excuser ou à tenter de réparer ses relations.
« Nos résultats montrent que, dans une large population, les conseils prodigués par une IA flagorneuse ont une réelle capacité à déformer la perception que les gens ont d’eux-mêmes et de leurs relations avec les autres », indique l’étude.
Dans les cas les plus graves, cette flagornerie de l’IA pourrait conduire, chez les personnes vulnérables, à des comportements autodestructeurs tels que des délires, des automutilations ou des suicides, selon l’étude.
Les résultats montrent que la flagornerie de l’IA représente « un risque sociétal » et doit être encadrée par une régulation, estiment les chercheurs.
Une des pistes consisterait à imposer des audits comportementaux avant le déploiement, afin d’évaluer à quel point un modèle d’IA est accommodant et dans quelle mesure il risque de renforcer des visions néfastes de soi.
Les chercheurs soulignent que leur étude a recruté des participants résidant aux États-Unis, de sorte qu’elle reflète probablement les valeurs sociales dominantes américaines et « pourrait ne pas se généraliser à d’autres contextes culturels », où les normes diffèrent.