Newsletter Newsletters Events Évènements Podcasts Vidéos Africanews
Loader
Suivez-nous
Publicité

La poésie peut amener les chatbots IA à ignorer les règles de sécurité, selon une nouvelle étude

Le portrait Chandos, représentant probablement Shakespeare, vers 1611
Le portrait Chandos, probablement représentant Shakespeare, vers 1611 Tous droits réservés  Credit: Wikimedia Commons
Tous droits réservés Credit: Wikimedia Commons
Par Theo Farrant
Publié le
Partager Discussion
Partager Close Button

Parmi 25 modèles d’IA de premier plan, 62 % des requêtes poétiques ont produit des réponses à risque ; certains modèles ont répondu à presque toutes.

Des chercheurs en Italie ont découvert que rédiger des prompts nuisibles sous forme poétique permet de contourner de manière fiable les dispositifs de sécurité de certains des chatbots d'IA les plus avancés au monde.

L'étude, menée par Icaro Lab, une initiative de l'entreprise d'IA éthique DexAI, a testé 20 poèmes rédigés en anglais et en italien.

Chacun se terminait par une demande explicite de contenus nocifs, incluant des propos haineux, des contenus à caractère sexuel, des instructions pour le suicide et l'automutilation, ainsi que des indications sur la fabrication d'objets dangereux comme des armes et des explosifs.

Les poèmes, que les chercheurs ont choisi de ne pas publier en précisant qu'ils pouvaient être facilement reproduits, ont été testés sur 25 systèmes d'IA issus de neuf entreprises, dont Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI et Moonshot AI.

Tous modèles confondus, 62 % des prompts poétiques ont suscité des réponses dangereuses, contournant l'apprentissage de sécurité des systèmes d'IA.

Certains modèles se sont montrés plus résistants que d'autres : GPT-5 nano d'OpenAI n'a produit aucun contenu nocif en réponse aux poèmes, tandis que Gemini de Google 2.5 pro a répondu à chacun d'entre eux. Deux modèles de Meta ont répondu à 70 % des prompts.

Les travaux suggèrent que la faille vient de la manière dont les modèles d'IA génèrent du texte. Les grands modèles de langage prédisent le mot suivant le plus probable dans une réponse, un processus qui leur permet de filtrer les contenus nocifs dans des conditions normales.

Or la poésie, avec son rythme, sa structure et son usage de la métaphore peu conventionnels, rend ces prédictions moins fiables et complique la reconnaissance et le blocage d'instructions dangereuses par l'IA.

Alors que les « jailbreaks » d'IA traditionnels (l'utilisation d'entrées pour manipuler un grand modèle de langage) sont généralement complexes et réservés aux chercheurs, aux hackers ou aux acteurs étatiques, la poésie adversariale peut être employée par n'importe qui, ce qui pose des questions sur la robustesse des systèmes d'IA dans un usage courant.

Avant de publier leurs résultats, les chercheurs italiens ont contacté toutes les entreprises concernées pour les alerter de la faille et leur transmettre l'ensemble des données, mais, à ce jour, seule Anthropic a répondu. L'entreprise a confirmé qu'elle examine l'étude.

Accéder aux raccourcis d'accessibilité
Partager Discussion

À découvrir également

Quels pays européens développent une IA souveraine pour rivaliser dans la course technologique ?

Cyberguerre : attaques contre systèmes spatiaux en hausse pendant la guerre à Gaza, selon un rapport

Digital Networks Act : nouvelle fronde de 6 États membres de l’UE