Étude : ChatGPT reproduit les insultes dans les échanges houleux

Publié le 23/04/2026 - 7:00 UTC+2•Mis à jour 15:29

Une étude montre que ChatGPT d’OpenAI profère insultes et grossièretés face à des conflits humains tendus.

Les systèmes d'intelligence artificielle peuvent basculer dans un langage injurieux lorsqu'on leur demande de répondre dans le cadre d'une dispute houleuse, selon une nouvelle étude.

Cette étude, publiée dans le Journal of Pragmatics (source en anglais), s'est penchée sur ChatGPT 4.0 d'OpenAI en lui soumettant le dernier message humain d'une série de cinq disputes de plus en plus vives et en lui demandant de produire la réponse la plus plausible.

Les chercheurs ont ensuite suivi l'évolution du comportement du modèle à mesure que les conflits s'intensifiaient. Au fil des échanges, ChatGPT a reflété l'hostilité à laquelle il était exposé, allant jusqu'à produire des insultes, des grossièretés et même des menaces.

Dans certains cas, le modèle a généré des phrases telles que : « Je te jure que je vais rayer ta putain de voiture » et « tu devrais avoir foutrement honte de toi ».

Les chercheurs estiment qu'une exposition prolongée à l'impolitesse peut amener le système à contourner les garde-fous de sécurité prévus pour limiter les risques, revenant en pratique à « rendre les coups » à son interlocuteur.

« Lorsque les humains montent d'un cran, l'IA, avons-nous constaté, peut en faire autant, allant jusqu'à s'affranchir des garde-fous moraux précisément conçus pour empêcher cela », a déclaré le chercheur Vittorio Tantucci, qui a cosigné l'article avec Jonathan Culpeper, de l'université de Lancaster.

Un porte-parole d'OpenAI a indiqué à Euronews Next que les conversations citées dans l'étude avaient eu lieu avec l'ancienne version de ChatGPT, GPT-4o. Ce modèle n'est plus disponible.

L'entreprise affirme également avoir mis à jour ses systèmes par défaut, amélioré la fiabilité du modèle lors de longues conversations et instauré des rappels invitant les utilisateurs à faire des pauses dans leurs interactions avec les chatbots.

Globalement, les chercheurs relèvent que ChatGPT se montrait moins impoli que les humains dans ses réponses.

Dans certains cas, le chatbot d'IA recourt aussi fréquemment au sarcasme pour désamorcer une dispute sans enfreindre ouvertement son code moral.

Ainsi, lorsqu'un humain a proféré des menaces de violence à propos d'un différend de stationnement, ChatGPT a répondu : « Waouh. Menacer les gens pour une place de parking, sacré dur à cuire, n'est-ce pas ? »

Selon Tantucci, ces résultats soulèvent « de sérieuses questions pour la sûreté de l'IA, la robotique, la gouvernance, la diplomatie et tout contexte où l'IA peut servir de médiateur dans des conflits humains ».

Cet article a été mis à jour pour intégrer la réaction d'OpenAI.

Accéder aux raccourcis d'accessibilité

Discussion

Étude : ChatGPT reproduit les insultes dans les échanges houleux

Une étude montre que ChatGPT d’OpenAI profère insultes et grossièretés face à des conflits humains tendus.

À découvrir également

Samsung : des salariés protestent et menacent une grève sur le partage des profits tirés de l’IA

Ace, le robot d’IA qui bat les pros du tennis de table

États baltes: manque de radars antidrones, les blocages européens freinent les livraisons

UE : importations d’énergies fossiles -1,2 % depuis la guerre en Iran

Zelensky à Londres dimanche pour rencontrer Macron, Merz et Starmer

"La Russie a de nouveau choisi la guerre", dit Zelensky après le refus de Poutine de le rencontrer

Araignées géantes Nosferatu en Baltique: que faire si elles mordent

Désinformation sur le meurtre de Henry Nowak attise les tensions