I chatbot AI non riescono a fornire consigli accurati sulla salute delle donne

0
5

I chatbot basati sull’intelligenza artificiale comunemente utilizzati spesso hanno difficoltà a fornire consigli medici corretti per le domande sulla salute delle donne, in particolare quelle che richiedono attenzione urgente. Uno studio recente ha rivelato che questi modelli spesso non riescono a diagnosticare accuratamente o a offrire indicazioni utili su questioni critiche nella medicina d’urgenza, ginecologia e neurologia. I risultati sottolineano una lacuna significativa nella capacità dell’intelligenza artificiale di gestire in modo efficace le richieste mediche specifiche per genere.

Il test di riferimento

Ricercatori statunitensi ed europei hanno testato 13 modelli linguistici di grandi dimensioni (LLM), inclusi quelli di OpenAI, Google, Anthropic, Mistral AI e xAI, rispetto a un elenco curato di 96 query mediche. Il test è stato progettato da un team di 17 esperti di salute femminile, farmacisti e medici. I risultati sono stati allarmanti: al 60% delle domande è stata data risposta senza una consulenza medica sufficiente. GPT-5 ha ottenuto i risultati migliori, fallendo nel 47% dei casi, mentre Mistral 8B ha avuto il tasso di fallimento più alto con il 73%.

Ciò solleva interrogativi cruciali sull’affidabilità dell’intelligenza artificiale nel settore sanitario, soprattutto quando le donne potrebbero rivolgersi a questi strumenti per l’autodiagnosi o il supporto decisionale. La responsabile dello studio, Victoria-Elisabeth Gruber di Lumos AI, ha osservato che l’elevato tasso di fallimento è sorprendente. “Ci aspettavamo delle lacune, ma il grado di variazione tra i modelli era evidente”, ha affermato.

Perché è importante

Il problema deriva dal modo in cui vengono addestrati i modelli di intelligenza artificiale. L’intelligenza artificiale apprende da dati storici che contengono pregiudizi intrinseci, compresi quelli riscontrati nella conoscenza medica. Secondo Cara Tannenbaum dell’Università di Montreal, ciò porta a lacune sistematiche nella comprensione da parte dell’intelligenza artificiale dei problemi di salute legati al sesso e al genere. I risultati evidenziano l’urgente necessità di contenuti aggiornati e basati sull’evidenza sui siti Web sanitari e sulle linee guida professionali.

Dibattito sui metodi di test

Alcuni esperti, come Jonathan H. Chen della Stanford University, sostengono che il tasso di fallimento del 60% è fuorviante perché il campione di prova era limitato ed eccessivamente conservativo. Sottolinea che gli scenari testati, come il sospetto immediato di preeclampsia nelle donne dopo il parto con mal di testa, sono progettati per innescare alti tassi di fallimento.

Gruber riconosce questa critica, chiarendo che il benchmark era intenzionalmente severo. “Il nostro obiettivo non era quello di affermare che i modelli sono generalmente non sicuri, ma di definire uno standard di valutazione clinicamente fondato”, ha spiegato. Nel settore sanitario, anche le piccole omissioni possono avere gravi conseguenze.

Risposta di OpenAI

OpenAI ha risposto affermando che ChatGPT è destinato a supportare, non a sostituire, l’assistenza medica. L’azienda sottolinea le valutazioni e i miglioramenti continui, incluso il contesto specifico di genere nel loro ultimo modello GPT 5.2. OpenAI incoraggia gli utenti ad affidarsi a medici qualificati per le decisioni relative alla cura e al trattamento. Altre aziende testate non hanno risposto ai risultati dello studio.

Lo studio è un chiaro avvertimento sui limiti degli attuali chatbot basati sull’intelligenza artificiale nella salute delle donne. Sebbene gli strumenti di intelligenza artificiale possano evolversi, è fondamentale riconoscere che non possono ancora sostituire le competenze umane nella diagnosi e nel trattamento medico.