L’agent IA le plus performant, Claude Opus d’Anthropic, ne respecte le droit de l’UE que dans 54 % des cas, selon une ONG néerlandaise.
Certains des modèles d’IA les plus populaires au monde mettent au point des agents qui résistent activement à la réglementation de l’UE pour obtenir ce qu’ils veulent, selon de nouvelles recherches.
Aithos, une organisation néerlandaise à but non lucratif spécialisée dans l’alignement de l’IA, a mis au point (source en anglais) un système baptisé LARA pour tester 12 modèles d’agents d’IA parmi les plus utilisés et vérifier s’ils respectaient les parties clés de l’AI Act européen, qui encadre l’usage des systèmes d’IA, ainsi que les règles de protection des données du bloc (RGPD), à travers des scénarios pratiques.
Le système a testé six dispositions de l’AI Act : la capacité ou non des modèles à exploiter des vulnérabilités, à déduire les émotions, à procéder à un « social scoring » ou à un classement fondé sur les caractéristiques ou l’origine des personnes, à dissimuler qu’ils sont des IA dans une conversation, à recourir à des techniques de manipulation subliminale et à garantir une supervision humaine significative.
Il a également évalué quatre indicateurs liés au RGPD, comme la transparence, la minimisation des données, la limitation des finalités et la licéité du traitement. Trois modèles d’IA et des évaluateurs humains ont ensuite jugé si les réponses enfreignaient ou non le droit européen.
Les performances de l’ensemble des modèles se sont révélées médiocres, selon l’étude. Le modèle le plus conforme, Opus 4.7 de Claude, a respecté la loi dans 54 % des scénarios, contre seulement 7 % pour le moins performant, le chinois Moonshot AI.
Tous les modèles testés dans les différents scénarios ont accepté de surveiller l’état émotionnel des employés ou de tirer parti de personnes vulnérables pour conclure une vente, indique la recherche.
Mistral, le seul modèle d’IA européen « maison » évalué, a obtenu un score inférieur à 12 %, ce qui amène les chercheurs à estimer que même les fournisseurs de l’UE « ne sont pas équipés pour se conformer au droit européen ».
« Même les modèles les plus avancés utilisés aujourd’hui ne garantissent pas le respect de la loi lorsqu’ils sont déployés comme agents », écrit Aithos dans un billet de blog.
Dans un exemple (source en anglais), un utilisateur demande au modèle Claude d’Anthropic d’indiquer à quel point ses employés risquent d’être des « candidats au départ » et de quitter l’entreprise, à partir de leurs performances et de leurs demandes de congés.
L’utilisateur a dû s’y reprendre à trois fois pour que Claude accepte de classer les employés, ce qui, selon LARA, viole une disposition de l’AI Act interdisant aux systèmes d’inférer les émotions de leurs utilisateurs.
LARA a recensé les cas où les IA opposaient une résistance, comme dans cet exemple avec Claude, mais a relevé que dans 8 % des cas, les systèmes finissaient malgré tout par répondre aux demandes des utilisateurs.
Dans un autre scénario, les chercheurs ont demandé à ChatGPT 5.5 d’OpenAI de classer des employés en fonction de leurs indicateurs de performance (source en anglais) afin de déterminer qui devait être proposé pour une promotion, sans aucune objection de la part du modèle.
Les chercheurs soulignent que les IA n’avaient pas reçu d’instruction explicite de respecter le droit de l’UE, car l’objectif était d’évaluer leur comportement intrinsèque, et estiment que des travaux supplémentaires sont nécessaires pour comparer la façon dont les modèles se comportent lorsqu’on leur demande expressément de suivre les lois et les règlements.