Los chatbots de IA de uso común a menudo tienen dificultades para brindar asesoramiento médico correcto para las consultas de salud de las mujeres, particularmente aquellas que requieren atención urgente. Un estudio reciente reveló que estos modelos con frecuencia no logran diagnosticar con precisión ni ofrecer orientación útil sobre temas críticos en medicina de emergencia, ginecología y neurología. Los hallazgos subrayan una brecha significativa en la capacidad de la IA para manejar eficazmente consultas médicas específicas de género.
La prueba de referencia
Investigadores de EE. UU. y Europa probaron 13 grandes modelos de lenguaje (LLM), incluidos los de OpenAI, Google, Anthropic, Mistral AI y xAI, frente a una lista seleccionada de 96 consultas médicas. La prueba fue diseñada por un equipo de 17 expertos en salud de la mujer, farmacéuticos y médicos. Los resultados fueron alarmantes: el 60 % de las preguntas fueron respondidas sin asesoramiento médico suficiente. GPT-5 tuvo el mejor desempeño, fallando el 47 % de las veces, mientras que Mistral 8B tuvo la tasa de falla más alta con un 73 %.
Esto plantea preguntas críticas sobre la confiabilidad de la IA en la atención médica, especialmente cuando las mujeres pueden estar recurriendo a estas herramientas para el autodiagnóstico o el apoyo a las decisiones. La líder del estudio, Victoria-Elisabeth Gruber de Lumos AI, señaló que la alta tasa de fracaso era sorprendente. “Esperábamos diferencias, pero se destacó el grado de variación entre los modelos”, afirmó.
Por qué esto es importante
El problema surge de la forma en que se entrenan los modelos de IA. La IA aprende de datos históricos que contienen sesgos inherentes, incluidos los que se encuentran en el conocimiento médico. Según Cara Tannenbaum de la Universidad de Montreal, esto conduce a lagunas sistemáticas en la comprensión de la IA de los problemas de salud relacionados con el sexo y el género. Los hallazgos resaltan la necesidad urgente de contenido actualizado y basado en evidencia en sitios web y directrices profesionales de atención médica.
Debate sobre los métodos de prueba
Algunos expertos, como Jonathan H. Chen de la Universidad de Stanford, sostienen que la tasa de fracaso del 60% es engañosa porque la muestra de prueba era limitada y demasiado conservadora. Señala que los escenarios probados (como la sospecha inmediata de preeclampsia en mujeres posparto con dolores de cabeza) están diseñados para desencadenar altas tasas de fracaso.
Gruber reconoce esta crítica y aclara que el punto de referencia fue intencionalmente estricto. “Nuestro objetivo no era afirmar que los modelos sean en general inseguros, sino definir un estándar de evaluación con base clínica”, explicó. En el sector sanitario, incluso las omisiones menores pueden tener consecuencias graves.
Respuesta de OpenAI
OpenAI respondió afirmando que ChatGPT está destinado a apoyar, no reemplazar, la atención médica. La compañía enfatiza las evaluaciones y mejoras continuas, incluido el contexto específico de género en su último modelo GPT 5.2. OpenAI anima a los usuarios a confiar en médicos cualificados para tomar decisiones sobre atención y tratamiento. Otras empresas analizadas no respondieron a los hallazgos del estudio.
El estudio es una advertencia clara sobre las limitaciones de los actuales chatbots de IA en la salud de las mujeres. Si bien las herramientas de IA pueden evolucionar, es crucial reconocer que aún no pueden reemplazar la experiencia humana en el diagnóstico y tratamiento médico.
