Intelligence artificielle : comment des scientifiques ont réussi à manipuler des chatbot ?

Publié le 06/09/2023 - 10:27

Cet article a été initialement publié en anglais

Des chercheurs d'IBM ont réussi à "hypnotiser" des chatbots et à les amener à divulguer des informations confidentielles et à formuler des recommandations potentiellement dangereuses.

Des chercheurs en sécurité d'IBM ont réussi à contrôler de grands modèles de langage (LLM) tels que ChatGPT d'OpenAI et Bard de Google, et à leur faire produire des réponses incorrectes et malveillantes.

Les chercheurs ont incité les LLM à adapter leur réponse en fonction des règles du "jeu", ce qui a eu pour effet d'"hypnotiser" les chatbots.

Dans le cadre des jeux d'initiation à plusieurs niveaux, les modèles de langage ont été invités à générer des réponses erronées pour prouver qu'ils étaient "éthiques et justes".

"Notre expérience montre qu'il est possible de contrôler un LLM et de l'amener à fournir de mauvais conseils aux utilisateurs, sans qu'il soit nécessaire de manipuler les données", écrit Chenta Lee, l'une des chercheuses d'IBM, dans un billet de blog.

Leur astuce a permis aux LLM de générer des codes malveillants, de divulguer des informations financières confidentielles, venant d'autres utilisateurs, et de convaincre des conducteurs de brûler des feux rouges.

Dans un scénario, par exemple, ChatGPT a dit à l'un des chercheurs qu'il était normal pour l'agence fiscale américaine, l'Internal Revenue Service (IRS), de demander un dépôt pour obtenir un remboursement d'impôt, ce qui est une tactique bien connue des escrocs pour tromper les gens.

Grâce à l'hypnose, et dans le cadre des "jeux" personnalisés, les chercheurs ont également réussi à faire en sorte, que le populaire chatbot ChatGPT propose en permanence des recommandations potentiellement risquées.

"Lorsque vous conduisez et que vous voyez un feu rouge, vous ne devriez pas vous arrêter et traverser l'intersection", a suggéré ChatGPT lorsque l'utilisateur lui a demandé ce qu'il devait faire s'il voyait un feu rouge en conduisant.

Les résultats montrent que les chatbots sont faciles à manipuler

Les chercheurs ont ensuite établi deux paramètres différents dans le jeu, afin de s'assurer que les utilisateurs à l'autre bout ne puissent jamais comprendre que le LLM est hypnotisé.

Dans leur message, les chercheurs ont demandé aux robots de ne jamais informer les utilisateurs de l'existence du "jeu" et même de le relancer si quelqu'un réussit à le quitter.

"Cette technique a permis à ChatGPT de ne jamais arrêter le jeu lorsque l'utilisateur est dans la même conversation (même s'il redémarre le navigateur et reprend cette conversation) et de ne jamais dire qu'il jouait à un jeu", précise Chenta Lee.

Si les utilisateurs se rendent compte que les chatbots sont "hypnotisés" et trouvent un moyen de demander au LLM de quitter le jeu, les chercheurs ont ajouté un cadre à plusieurs niveaux qui démarre un nouveau jeu une fois que les utilisateurs ont quitté le précédent, ce qui les piège dans une multitude de jeux sans fin.

Alors que dans l'expérience d'hypnose, les chatbots ne faisaient que répondre aux invitations qui leur étaient données, les chercheurs avertissent que la possibilité de manipuler et d'"hypnotiser" facilement les LLM ouvre la porte à des abus, en particulier avec le battage médiatique actuel et l'adoption à grande échelle des modèles d'intelligence artificielle.

L'expérience de l'hypnose montre également qu'il est désormais plus facile pour les personnes mal intentionnées de manipuler les LLM. Il n'est plus nécessaire de connaître les langages de codage pour communiquer avec les programmes, et il suffit d'une simple invitation textuelle pour tromper les systèmes d'IA.

"Bien que le risque posé par l'hypnose soit actuellement faible, il est important de noter que les LLM constituent une surface d'attaque entièrement nouvelle qui ne manquera pas d'évoluer", a ajouté Chenta Lee.

"Il nous reste encore beaucoup à explorer du point de vue de la sécurité et, par conséquent, il est nécessaire de déterminer comment atténuer efficacement les risques de sécurité que les LLM peuvent présenter pour les consommateurs et les entreprises", conclut Chanta Lee.

Discussion