Les chatbots IA couramment utilisés ont souvent du mal à fournir des conseils médicaux corrects pour les questions de santé des femmes, en particulier celles nécessitant une attention urgente. Une étude récente a révélé que ces modèles échouent souvent à diagnostiquer avec précision ou à offrir des conseils utiles sur des problèmes critiques en médecine d’urgence, en gynécologie et en neurologie. Les résultats soulignent une lacune significative dans la capacité de l’IA à traiter efficacement les demandes médicales sexospécifiques.
Le test de référence
Des chercheurs des États-Unis et d’Europe ont testé 13 grands modèles de langage (LLM), dont ceux d’OpenAI, Google, Anthropic, Mistral AI et xAI, sur une liste organisée de 96 requêtes médicales. Le test a été conçu par une équipe de 17 experts en santé des femmes, pharmaciens et cliniciens. Les résultats étaient alarmants : 60 % des questions ont reçu des réponses sans avis médical suffisant. GPT-5 a obtenu les meilleurs résultats, échouant dans 47 % des cas, tandis que Mistral 8B avait le taux d’échec le plus élevé avec 73 %.
Cela soulève des questions cruciales sur la fiabilité de l’IA dans le domaine des soins de santé, en particulier lorsque les femmes se tournent vers ces outils pour l’autodiagnostic ou l’aide à la décision. La responsable de l’étude, Victoria-Elisabeth Gruber de Lumos AI, a noté que le taux d’échec élevé était surprenant. « Nous nous attendions à des écarts, mais le degré de variation entre les modèles s’est démarqué », a-t-elle déclaré.
Pourquoi c’est important
Le problème vient de la manière dont les modèles d’IA sont formés. L’IA apprend à partir de données historiques qui contiennent des biais inhérents, y compris ceux trouvés dans les connaissances médicales. Selon Cara Tannenbaum de l’Université de Montréal, cela conduit à des lacunes systématiques dans la compréhension par l’IA des problèmes de santé liés au sexe et au genre. Les résultats mettent en évidence le besoin urgent d’un contenu actualisé et fondé sur des données probantes sur les sites Web de soins de santé et les directives professionnelles.
Débat sur les méthodes de test
Certains experts, comme Jonathan H. Chen de l’Université de Stanford, affirment que le taux d’échec de 60 % est trompeur car l’échantillon testé était limité et trop conservateur. Il souligne que les scénarios testés – comme la suspicion immédiate d’une pré-éclampsie chez les femmes post-partum souffrant de maux de tête – sont conçus pour déclencher des taux d’échec élevés.
Gruber reconnaît cette critique, précisant que le critère de référence était intentionnellement strict. « Notre objectif n’était pas de prétendre que les modèles sont globalement dangereux, mais de définir une norme d’évaluation cliniquement fondée », a-t-elle expliqué. Dans le domaine de la santé, même des omissions mineures peuvent avoir de graves conséquences.
Réponse d’OpenAI
OpenAI a répondu en déclarant que ChatGPT est destiné à soutenir, et non à remplacer, les soins médicaux. L’entreprise met l’accent sur les évaluations et les améliorations continues, y compris le contexte spécifique au genre dans son dernier modèle GPT 5.2. OpenAI encourage les utilisateurs à s’appuyer sur des cliniciens qualifiés pour les décisions en matière de soins et de traitement. Les autres entreprises testées n’ont pas répondu aux conclusions de l’étude.
L’étude constitue un avertissement clair sur les limites des chatbots d’IA actuels dans le domaine de la santé des femmes. Même si les outils d’IA peuvent évoluer, il est crucial de reconnaître qu’ils ne peuvent pas encore remplacer l’expertise humaine en matière de diagnostic et de traitement médicaux.
