Une IA surpasse les médecins dans la plupart des tâches de raisonnement médical, des diagnostics aux conseils de prise en charge des patients
Les modèles d’intelligence artificielle ont surpassé les médecins pour les décisions médicales aux urgences, selon une nouvelle étude.
Des chercheurs de la Harvard Medical School et du Beth Israel Deaconess Medical Center, aux États-Unis, ont comparé l’intelligence artificielle et les médecins sur un large éventail de tâches de raisonnement clinique.
Ils ont constaté que les grands modèles de langage (LLM) faisaient mieux que les médecins sur plusieurs tâches, notamment pour prendre des décisions aux urgences à partir des informations disponibles, identifier les diagnostics les plus probables et choisir les étapes suivantes de la prise en charge.
« Nous avons testé le modèle d’IA sur pratiquement tous les critères de référence, et il a éclipsé à la fois les modèles précédents et nos groupes de médecins », a déclaré Arjun Manrai, coauteur principal de l’étude et professeur à la Harvard Medical School.
« Cela ne signifie toutefois pas que l’IA améliorera nécessairement les soins : la façon et les contextes dans lesquels elle doit être déployée restent peu étudiés, et nous avons un besoin urgent d’essais prospectifs rigoureux pour évaluer l’impact de l’IA sur la pratique clinique. »
Comment le modèle d’IA a-t-il été testé ?
Les chercheurs ont d’abord évalué o1-preview, le modèle de raisonnement d’OpenAI lancé en 2024, auquel ils ont soumis une série de cas cliniques, allant de présentations de cas publiées à de véritables dossiers de service d’urgences.
Dans la plupart des expériences, l’IA a fait mieux que les médecins, en particulier pour le raisonnement sur la prise en charge, le raisonnement clinique, la rédaction des comptes rendus et les situations d’urgence réelles avec des informations limitées.
« Les modèles sont de plus en plus performants. Nous les évaluions autrefois avec des QCM ; aujourd’hui, ils obtiennent systématiquement des scores proches de 100 %, et nous ne pouvons plus suivre leurs progrès car ils ont déjà atteint le plafond », a expliqué Peter Brodeur, co-premier auteur de l’étude et médecin en formation à la Harvard Medical School, au Beth Israel Deaconess.
Dans l’un des tests, les chercheurs ont demandé aux LLM – o1 et GPT-4o – d’évaluer des patients à différents moments d’un parcours standard aux urgences, de la phase de tri initial jusqu’aux décisions d’hospitalisation ultérieures.
À chaque étape, le modèle ne recevait que les informations disponibles à ce moment-là et devait proposer les diagnostics les plus probables ainsi que la conduite à tenir.
L’écart le plus important entre l’IA et les médecins est apparu lors du triage, lorsque les informations sur le patient sont les plus limitées.
Comme pour les médecins, les modèles d’IA ont amélioré leurs capacités diagnostiques à mesure que davantage d’informations étaient disponibles.
« Même si l’utilisation de l’IA pour aider à la décision clinique est parfois considérée comme une démarche à haut risque, un recours plus large à ces outils pourrait contribuer à réduire le coût humain et financier des erreurs de diagnostic, des retards et des difficultés d’accès », écrivent les auteurs.
Davantage de recherches nécessaires
Les chercheurs appellent à mener des essais prospectifs pour évaluer ces technologies dans des conditions réelles, et demandent aux systèmes de santé d’investir dans les infrastructures informatiques et d’élaborer des cadres permettant une intégration sûre des outils d’IA dans les pratiques cliniques.
« Un modèle peut identifier le diagnostic principal, mais aussi suggérer des examens inutiles susceptibles d’exposer un patient à un risque », prévient Brodeur. « Les humains doivent rester la référence ultime pour l’évaluation des performances et de la sécurité. »
L’étude comporte certaines limites. Les auteurs soulignent qu’elle ne reflète que les performances du modèle et qu’elle porte principalement sur la version préliminaire du modèle o1, depuis remplacée par des modèles plus récents comme o3 d’OpenAI.
« Même si nous nous attendons à ce que les performances soient maintenues ou améliorées avec les nouveaux modèles, d’autres travaux seront nécessaires pour préciser comment elles varient d’un modèle à l’autre et pour étudier la manière dont les humains et les LLM peuvent collaborer », écrivent les auteurs.