Étude : les modèles de langage d’IA échouent dans plus de 80 % des diagnostics précoces, trop risqués sans supervision clinique
L’intelligence artificielle générative (IA) ne dispose toujours pas des capacités de raisonnement nécessaires à une utilisation clinique sûre, conclut une nouvelle étude.
Les chatbots d’IA ont amélioré leur précision diagnostique lorsqu’ils disposent d’informations cliniques complètes, mais ils échouent encore à proposer un diagnostic différentiel approprié dans plus de 80 % des cas, selon les chercheurs de Mass General Brigham, un réseau hospitalier et de recherche à but non lucratif basé à Boston et l’un des plus grands systèmes de santé des États-Unis.
Les résultats de l’étude, publiée dans la revue médicale en accès libre JAMA Network Open (source en anglais), montrent que les grands modèles de langage (LLM) restent en deçà du niveau de raisonnement requis pour un usage clinique.
« Malgré les progrès continus, les grands modèles de langage prêts à l’emploi ne sont pas prêts pour un déploiement en pratique clinique sans supervision », a déclaré Marc Succi, co‑auteur de l’étude.
Il a ajouté que l’IA n’est pas encore capable de reproduire le diagnostic différentiel, qui est au cœur du raisonnement clinique et qu’il considère comme « l’art de la médecine ».
Le diagnostic différentiel constitue la première étape qui permet aux professionnels de santé d’identifier une affection en la distinguant d’autres maladies présentant des symptômes similaires.
Comment les modèles ont été testés
L’équipe de recherche a analysé le fonctionnement de 21 LLM, dont les dernières versions disponibles de Claude, DeepSeek, Gemini, GPT et Grok.
Les LLM ont été évalués sur 29 vignettes cliniques standardisées à l’aide d’un nouvel outil développé pour l’occasion, baptisé PrIME‑LLM.
Cet outil mesure les capacités d’un modèle à différentes étapes du raisonnement clinique : établir un diagnostic initial, prescrire les examens appropriés, parvenir à un diagnostic final et planifier le traitement.
Pour simuler le déroulement de cas cliniques, les chercheurs ont fourni progressivement des informations aux modèles, en commençant par les données de base comme l’âge, le sexe et les symptômes du patient, avant d’y ajouter les résultats de l’examen clinique et des analyses de laboratoire.
Dans la pratique, un diagnostic différentiel est indispensable pour pouvoir passer à l’étape suivante. Cependant, dans l’étude, les modèles recevaient des informations supplémentaires afin de pouvoir continuer, même s’ils échouaient à l’étape du diagnostic différentiel.
Les chercheurs ont constaté que les modèles de langage obtenaient une grande précision sur les diagnostics finaux, mais qu’ils étaient peu performants pour générer des diagnostics différentiels et gérer l’incertitude.
Selon l’auteure de l’étude, Arya Rao, le fait d’évaluer les LLM étape par étape permet de cesser de les considérer comme de simples candidats à un examen et de les placer dans la position d’un médecin.
« Ces modèles sont très doués pour proposer un diagnostic final une fois que toutes les données sont disponibles, mais ils peinent au début d’un cas, lorsqu’il y a peu d’informations », a‑t‑elle ajouté.
Les chercheurs ont observé que tous les modèles échouaient à produire un diagnostic différentiel approprié dans plus de 80 % des cas.
Pour le diagnostic final, les taux de réussite allaient d’environ 60 % à plus de 90 %, selon le modèle.
La plupart des LLM voyaient leur précision s’améliorer lorsqu’ils disposaient, en plus du texte, de résultats de laboratoire et d’imagerie.
Les résultats ont fait apparaître un groupe de tête comprenant Grok 4, GPT‑5, GPT‑4.5, Claude 4.5 Opus, Gemini 3.0 Flash et Gemini 3.0 Pro.
Les professionnels de santé restent indispensables
Les auteurs soulignent toutefois que, malgré les progrès liés aux nouvelles versions et les avantages des modèles optimisés pour le raisonnement, les LLM prêts à l’emploi n’ont pas encore atteint le niveau d’intelligence nécessaire à un déploiement sûr et restent limités dans la démonstration d’un raisonnement clinique avancé.
« Nos résultats confirment que les grands modèles de langage utilisés en santé nécessitent toujours la présence d’un “humain dans la boucle” et une supervision très étroite », a rappelé Succi.
Pour Susana Manso García, membre du groupe de travail Intelligence artificielle et santé numérique de la Société espagnole de médecine de famille et communautaire, qui n’a pas participé à l’étude, ces résultats adressent un message clair au grand public.
« L’étude insiste elle‑même sur le fait qu’ils [les modèles de langage] ne doivent pas être utilisés pour prendre des décisions cliniques sans supervision. Par conséquent, même si l’intelligence artificielle représente un outil prometteur, le jugement clinique humain reste indispensable », a‑t‑elle déclaré.
« La recommandation au public est d’utiliser ces technologies avec prudence et, en cas de problème de santé, de consulter systématiquement un professionnel de santé. »