OpenAI affirme avoir compris que les grands modèles de langage récompensent les chatbots qui devinent et préfèrent inventer que de ne pas répondre.
La société d'intelligence artificielle OpenAI affirme que les algorithmes récompensent les chatbots lorsqu'ils devinent, selon un nouveau document de recherche.
OpenAI parle d'"hallucinations" lorsque les grands modèles de langage (LLM) utilisés pour former les chatbots devinent des réponses lorsqu'ils ne sont pas sûrs, au lieu d'admettre qu'ils ne savent pas.
Les chercheurs expliquent que les hallucinations proviennent d'une erreur de classification binaire, lorsque les LLM classent les nouvelles observations dans l'une des deux catégories.
La raison pour laquelle les hallucinations persistent est que les LLM sont "optimisés pour être de bons examinateurs et deviner en cas d'incertitude améliore la performance de l'examen", selon le rapport.
Les chercheurs ont comparé cette situation à celle des étudiants qui devinent lors d'examens à choix multiples ou qui tentent leur chance lors d'examens écrits parce qu'ils obtiennent plus de points en soumettant une réponse qu'en laissant le champ vide.
Les LLM travaillent avec un système de points qui les récompense d'un point pour une réponse correcte et d'aucun point pour les blancs ou pour avoir dit qu'ils ne connaissaient pas la réponse.
L'article paraît quelques semaines après la publication par OpenAI de GPT-5, un modèle que l'entreprise affirme être "à l'épreuve des hallucinations", avec 46 % de fausses réponses en moins que son prédécesseur GPT-4o.
Toutefois, une étude récente de la société américaine NewsGuard a révélé que les modèles de ChatGPT diffusaient généralement des faussetés dans 40 % de leurs réponses.
L'IA ne peut pas répondre à certaines questions
Grâce à la préformation et à la post-formation, les chatbots apprennent à prédire le mot suivant dans de grandes quantités de textes.
L'étude de l'OpenAI montre que si certaines choses, comme l'orthographe et la grammaire, suivent des règles et une structure très claires, il existe d'autres sujets ou types de données qu'il sera difficile, voire impossible, pour une IA d'identifier.
Par exemple, les algorithmes peuvent classer des photos lorsqu'elles sont étiquetées "chat ou chien", mais si les photos sont étiquetées en fonction de l'anniversaire de l'animal, le chatbot ne sera pas en mesure de les classer avec précision.
Ce type de tâche effectuée par une IA "produirait toujours des erreurs, quel que soit le degré d'avancement de l'algorithme", selon le rapport.
L'une des principales conclusions des chercheurs dans le rapport est que les modèles ne seront jamais précis à 100 % parce que "certaines questions du monde réel sont intrinsèquement sans réponse".
En somme, si les modèles d’IA peuvent impressionner par leur capacité à manier l’information, ils trébuchent encore parfois sur la vérité et préfèrent inventer plutôt que d’avouer leur ignorance.
Une limite qui rappelle qu’il y a des nuances, des intuitions et ce fameux « pif » humain que les machines appréhendent encore difficilement. Mais ne doutons pas qu’un jour, même ce petit bug sera corrigé… et l’IA aura enfin le courage ou le bon sens de nous répondre : « je n’en sais rien ».