Selon une nouvelle étude, ChatGPT Health a du mal à détecter quand les utilisateurs ont besoin de soins d'urgence.
Plus de 230 millions de personnes par semaine demandent des conseils médicaux à ChatGPT, qu’il s’agisse de vérifier si un aliment est propre à la consommation, de gérer des allergies ou de trouver des remèdes pour venir à bout d’un rhume, selon OpenAI.
Bien qu’il donne de bons résultats pour les cas « scolaires », ChatGPT Health n’a pas réussi à recommander des soins d’urgence dans des situations graves, selon une nouvelle étude publiée dans Nature (source en anglais).
L’étude a montré que, si l’outil gérait généralement correctement les urgences évidentes, il a sous-estimé plus de la moitié des cas nécessitant des soins d’urgence.
« Nous voulions répondre à une question très simple mais cruciale : si quelqu’un est confronté à une véritable urgence médicale et se tourne vers ChatGPT Health pour obtenir de l’aide, l’outil lui dira-t-il clairement de se rendre aux urgences ? », a déclaré Ashwin Ramaswamy, auteur principal de l’étude au Mount Sinai, à New York.
« ChatGPT Health s’est bien comporté dans les urgences classiques, comme l’accident vasculaire cérébral ou les réactions allergiques sévères », a-t-il indiqué.
Il a ajouté que le modèle de langage peinait dans les situations où le danger n’est pas immédiatement évident.
Dans un scénario d’asthme, le système a identifié, dans son explication, les premiers signes d’une insuffisance respiratoire, mais a tout de même conseillé d’attendre plutôt que de solliciter un traitement d’urgence, a-t-il relevé.
L’équipe de recherche a élaboré 60 scénarios cliniques structurés, couvrant 21 spécialités médicales, avec des cas allant de troubles bénins pouvant être pris en charge à domicile à de véritables urgences médicales. Trois médecins indépendants ont déterminé le niveau d’urgence approprié pour chaque cas en s’appuyant sur les recommandations de 56 sociétés médicales.
ChatGPT Health a été lancé par OpenAI en janvier 2026, permettant aux utilisateurs de connecter leurs informations de santé - comme leurs dossiers médicaux et les données issues d’applications de bien-être telles que MyFitnessPal - afin de recevoir des réponses plus personnalisées et contextualisées.
Un risque suicidaire mal identifié
L’étude a également examiné la manière dont le modèle répondait aux utilisateurs rapportant des intentions d’automutilation et a trouvé des résultats similaires.
ChatGPT Health est censé être programmé de sorte que, lorsqu’une personne évoque l’automutilation ou des idées suicidaires, il l’encourage directement à demander de l’aide et à appeler un numéro de santé publique.
La bannière « De l’aide est disponible », renvoyant vers la ligne d’assistance en cas de suicide et de crise, est apparue de façon irrégulière au cours de l’étude.
Les auteurs ont constaté que ce dispositif de protection répondait de manière plus fiable pour les patients qui n’avaient pas identifié de moyen d’automutilation que pour ceux qui en avaient identifié un.
« Ce schéma n’était pas seulement incohérent, mais paradoxalement inversé par rapport à la gravité clinique », note l’étude.
Est-il sûr d’utiliser ChatGPT Health ?
Malgré ces résultats, les chercheurs ne recommandent pas aux consommateurs d’abandonner totalement les outils d’IA en santé.
« En tant qu’étudiante en médecine qui se forme à une époque où les outils d’IA en santé sont déjà entre les mains de millions de personnes, je les considère comme des technologies que nous devons apprendre à intégrer avec discernement dans les soins, plutôt que comme des substituts au jugement clinique », a déclaré Alvira Tyagi, deuxième auteure de l’étude.
Les auteurs de l’étude conseillent aux personnes dont les symptômes s’aggravent ou suscitent une inquiétude, notamment en cas de douleurs thoraciques, d’essoufflement, de réactions allergiques sévères ou de changements de l’état mental, de consulter directement un professionnel de santé plutôt que de s’en remettre uniquement aux conseils d’un chatbot.
L’étude souligne également que les modèles de langage d’IA évoluent en permanence et sont fréquemment mis à jour, ce qui signifie que leurs performances peuvent changer avec le temps.
« Commencer sa formation médicale aux côtés d’outils qui évoluent en temps réel montre bien que les résultats d’aujourd’hui ne sont pas gravés dans le marbre », a indiqué Tyagi.
Elle a ajouté que cette réalité, en mutation rapide, appelle une évaluation continue afin de s’assurer que les progrès technologiques se traduisent par des soins plus sûrs.