AI Chatbots não fornecem conselhos precisos sobre saúde feminina

0
7

Os chatbots de IA comumente usados muitas vezes têm dificuldade para fornecer aconselhamento médico correto para dúvidas de saúde das mulheres, especialmente aquelas que requerem atenção urgente. Um estudo recente revelou que esses modelos frequentemente não conseguem diagnosticar com precisão ou oferecer orientações úteis sobre questões críticas em medicina de emergência, ginecologia e neurologia. As descobertas sublinham uma lacuna significativa na capacidade da IA ​​para lidar eficazmente com consultas médicas específicas de género.

O teste de referência

Pesquisadores dos EUA e da Europa testaram 13 grandes modelos de linguagem (LLMs), incluindo os da OpenAI, Google, Anthropic, Mistral AI e xAI, em uma lista selecionada de 96 consultas médicas. O teste foi elaborado por uma equipe de 17 especialistas em saúde da mulher, farmacêuticos e médicos. Os resultados foram alarmantes: 60% das perguntas foram respondidas com orientação médica insuficiente. O GPT-5 teve o melhor desempenho, falhando 47% das vezes, enquanto o Mistral 8B teve a maior taxa de falha, 73%.

Isto levanta questões críticas sobre a fiabilidade da IA ​​nos cuidados de saúde, especialmente quando as mulheres recorrem a estas ferramentas para autodiagnóstico ou apoio à decisão. A líder do estudo, Victoria-Elisabeth Gruber da Lumos AI, observou que a alta taxa de falhas foi surpreendente. “Esperávamos lacunas, mas o grau de variação entre os modelos se destacou”, afirmou.

Por que isso é importante

O problema decorre da forma como os modelos de IA são treinados. A IA aprende com dados históricos que contêm preconceitos inerentes, incluindo aqueles encontrados no conhecimento médico. De acordo com Cara Tannenbaum, da Universidade de Montreal, isto leva a lacunas sistemáticas na compreensão da IA ​​sobre questões de saúde relacionadas com o sexo e o género. As descobertas destacam a necessidade urgente de conteúdo atualizado e baseado em evidências em sites de saúde e orientações profissionais.

Debate sobre métodos de teste

Alguns especialistas, como Jonathan H. Chen, da Universidade de Stanford, argumentam que a taxa de reprovação de 60% é enganosa porque a amostra do teste era limitada e excessivamente conservadora. Ele salienta que os cenários testados – como a suspeita imediata de pré-eclâmpsia em mulheres pós-parto com dores de cabeça – foram concebidos para desencadear elevadas taxas de insucesso.

Gruber reconhece esta crítica, esclarecendo que o referencial foi intencionalmente rigoroso. “Nosso objetivo não era afirmar que os modelos são amplamente inseguros, mas definir um padrão de avaliação clinicamente fundamentado”, explicou ela. Na área da saúde, mesmo pequenas omissões podem ter consequências graves.

Resposta da OpenAI

A OpenAI respondeu afirmando que o ChatGPT se destina a apoiar, e não substituir, cuidados médicos. A empresa enfatiza avaliações e melhorias contínuas, incluindo o contexto específico de género no seu mais recente modelo GPT 5.2. A OpenAI incentiva os usuários a confiarem em médicos qualificados para decisões sobre cuidados e tratamento. Outras empresas testadas não responderam às conclusões do estudo.

O estudo é um aviso claro sobre as limitações dos atuais chatbots de IA na saúde das mulheres. Embora as ferramentas de IA possam evoluir, é crucial reconhecer que ainda não podem substituir a experiência humana no diagnóstico e tratamento médico.