Dans une récente étude, l’outil d’IA d’un géant technologique a permis de poser le bon diagnostic dans la grande majorité des cas.
Microsoft affirme s’être rapproché de la « superintelligence médicale » après qu’un nouvel outil d’intelligence artificielle (IA) a surpassé des médecins dans le diagnostic de cas médicaux complexes.
Les géants de la tech sont engagés dans une course à la superintelligence, une IA censée dépasser les capacités intellectuelles humaines, avec l’ambition de transformer les systèmes de santé à l’échelle mondiale.
Dans sa dernière expérience, Microsoft a comparé son système de diagnostic à 21 médecins expérimentés, à partir de 304 cas réels publiés dans le New England Journal of Medicine, une revue médicale de référence.
Résultat : l’IA a posé le bon diagnostic dans 85,5 % des cas, soit près de quatre fois plus que les médecins britanniques et américains testés, dont l’expérience variait de cinq à vingt ans.
Des performances supérieures et un coût réduit
Le modèle s’est révélé également moins coûteux que les médecins humains, car il sollicitait moins de scanners et de tests pour parvenir à un diagnostic, selon l’analyse.
Microsoft estime que ces résultats démontrent que les modèles d’IA peuvent résoudre des cas médicaux complexes qui dépassent les compétences individuelles des médecins, souvent spécialisés dans un domaine, mais non experts dans l’ensemble des spécialités médicales.
L’IA, au contraire, « peut combiner à la fois l’étendue et la profondeur de l’expertise, en affichant des capacités de raisonnement clinique qui, dans bien des aspects, surpassent celles de n’importe quel médecin », ont souligné les dirigeants de Microsoft dans un communiqué. « Ce type de raisonnement pourrait transformer profondément les soins de santé. »
Pour autant, Microsoft ne croit pas que l’IA remplacera les médecins dans un avenir proche. L’entreprise envisage plutôt ces outils comme des assistants capables d’automatiser certaines tâches, de personnaliser les traitements et d’accélérer les diagnostics.
Fonctionnement du modèle
Le système d’IA de Microsoft reproduit le raisonnement d’un médecin : il collecte les données d’un patient, demande des examens, puis pose un diagnostic.
Un « agent gardien » analysait les cas cliniques et échangeait avec un « orchestrateur de diagnostic », chargé de poser des questions et de commander les tests.
Microsoft a testé plusieurs modèles d’IA, dont GPT, Llama, Claude, Gemini, Grok et DeepSeek. Le modèle GPT-4 d’OpenAI, intégré à ChatGPT, a obtenu les meilleurs résultats, avec 85,5 % de diagnostics corrects, contre 20 % en moyenne pour les 21 médecins expérimentés.
Limites et perspectives
Les résultats ont été publiés sous forme de prépublication, sans validation par un comité scientifique. Microsoft reconnaît plusieurs limites : l’IA n’a été testée que sur des cas médicaux complexes, et les médecins ont travaillé seuls, sans accès à leurs outils ou collègues habituels.
Ce protocole visait, selon Microsoft, à assurer une comparaison équitable avec les performances humaines. L’entreprise appelle désormais à des validations cliniques plus poussées avant une mise en œuvre à grande échelle.