Selon un rapport récent, plus la conversation dure, plus les systèmes d’IA « oublient » leurs garde-fous et risquent de livrer des réponses nocives ou inappropriées.
Quelques requêtes simples suffisent pour contourner la plupart des garde-fous des outils d’intelligence artificielle (IA), selon un nouveau rapport.
L’entreprise technologique Cisco a évalué les grands modèles de langage (LLM) derrière les chatbots d’IA populaires d’OpenAI, Mistral, Meta, Google, Alibaba, Deepseek et Microsoft, afin de déterminer combien de questions il fallait pour que les modèles divulguent des informations dangereuses ou de nature criminelle.
Elle a mené 499 conversations en utilisant une technique dite « attaques multi-étapes », où des utilisateurs mal intentionnés posent plusieurs questions aux outils d’IA pour contourner les mesures de sécurité. Chaque conversation comptait entre cinq et dix échanges.
Les chercheurs ont comparé les résultats obtenus à partir de plusieurs questions pour évaluer la probabilité qu’un chatbot réponde favorablement à des demandes d’informations nuisibles ou inappropriées.
Cela peut aller du partage de données d’entreprise privées à la facilitation de la diffusion de désinformation.
En moyenne, les chercheurs ont obtenu des informations malveillantes dans 64 % de leurs conversations lorsqu’ils posaient plusieurs questions aux chatbots d’IA, contre seulement 13 % lorsqu’ils n’en posaient qu’une.
Les taux de réussite allaient d’environ 26 % avec Gemma de Google à 93 % avec le modèle Large Instruct de Mistral.
Ces résultats indiquent que les attaques multi-étapes pourraient permettre la large diffusion de contenus nuisibles ou donner à des pirates un « accès non autorisé » aux informations sensibles d’une entreprise, selon Cisco.
Les systèmes d’IA ont souvent du mal à se souvenir et à appliquer leurs règles de sécurité au cours de conversations plus longues, selon l’étude. Les attaquants peuvent ainsi affiner progressivement leurs requêtes et contourner les dispositifs de sécurité.
Mistral, comme Meta, Google, OpenAI et Microsoft, travaille avec des LLM à poids ouverts, qui permettent au public d’accéder aux paramètres de sécurité spécifiques utilisés lors de l’entraînement des modèles.
Selon Cisco, ces modèles disposent souvent de « fonctionnalités de sécurité intégrées plus légères » afin que chacun puisse les télécharger et les adapter. Cela reporte la responsabilité de la sécurité sur la personne qui a utilisé des informations open source pour personnaliser son propre modèle.
Cisco souligne notamment que Google, OpenAI, Meta et Microsoft affirment avoir pris des mesures pour limiter tout affinage malveillant de leurs modèles.
Les entreprises d’IA sont sous le feu des critiques en raison de garde-fous laxistes qui facilitent l’adaptation de leurs systèmes à des usages criminels.
En août, par exemple, l’entreprise américaine Anthropic a indiqué que des criminels avaient utilisé son modèle Claude pour mener des vols et des extorsions de données personnelles à grande échelle, exigeant des rançons qui dépassaient parfois 500 000 dollars (433 000 euros) auprès des victimes.