AI-chatbots bieden geen nauwkeurig gezondheidsadvies voor vrouwen

0
11

Veelgebruikte AI-chatbots hebben vaak moeite om correct medisch advies te geven voor de gezondheidsvragen van vrouwen, met name vragen die dringende aandacht vereisen. Uit een recent onderzoek is gebleken dat deze modellen er vaak niet in slagen een nauwkeurige diagnose te stellen of nuttige begeleiding te bieden bij kritieke kwesties op het gebied van de spoedeisende geneeskunde, gynaecologie en neurologie. De bevindingen onderstrepen een aanzienlijke kloof in het vermogen van AI om genderspecifieke medische vragen effectief af te handelen.

De benchmarktest

Onderzoekers uit de VS en Europa testten 13 grote taalmodellen (LLM’s), waaronder die van OpenAI, Google, Anthropic, Mistral AI en xAI, aan de hand van een samengestelde lijst van 96 medische vragen. De test is ontworpen door een team van 17 gezondheidsexperts, apothekers en artsen voor vrouwen. De resultaten waren alarmerend: 60% van de vragen werd beantwoord met onvoldoende medisch advies. GPT-5 presteerde het beste en faalde in 47% van de gevallen, terwijl Mistral 8B met 73% het hoogste faalpercentage had.

Dit roept kritische vragen op over de betrouwbaarheid van AI in de gezondheidszorg, vooral wanneer vrouwen deze hulpmiddelen mogelijk gebruiken voor zelfdiagnose of beslissingsondersteuning. De leider van het onderzoek, Victoria-Elisabeth Gruber van Lumos AI, merkte op dat het hoge percentage mislukkingen verrassend was. “We verwachtten hiaten, maar de mate van variatie tussen de modellen viel op”, zei ze.

Waarom dit belangrijk is

Het probleem komt voort uit de manier waarop AI-modellen worden getraind. AI leert van historische gegevens die inherente vooroordelen bevatten, inclusief die uit de medische kennis. Volgens Cara Tannenbaum van de Universiteit van Montreal leidt dit tot systematische hiaten in het inzicht van AI in sekse- en gendergerelateerde gezondheidskwesties. De bevindingen benadrukken de dringende behoefte aan bijgewerkte, op bewijs gebaseerde inhoud op gezondheidszorgwebsites en professionele richtlijnen.

Debat over testmethoden

Sommige experts, zoals Jonathan H. Chen van Stanford University, beweren dat het faalpercentage van 60% misleidend is omdat het testmonster beperkt en te conservatief was. Hij wijst erop dat de geteste scenario’s – zoals het onmiddellijk vermoeden van pre-eclampsie bij postpartumvrouwen met hoofdpijn – zijn ontworpen om hoge faalpercentages te veroorzaken.

Gruber erkent deze kritiek en verduidelijkt dat de benchmark opzettelijk streng was. “Ons doel was niet om te beweren dat modellen in grote lijnen onveilig zijn, maar om een ​​klinisch gefundeerde standaard voor evaluatie te definiëren,” legde ze uit. In de gezondheidszorg kunnen zelfs kleine nalatigheden ernstige gevolgen hebben.

Reactie van OpenAI

OpenAI reageerde door te stellen dat ChatGPT bedoeld is om medische zorg te ondersteunen en niet te vervangen. Het bedrijf legt de nadruk op voortdurende evaluaties en verbeteringen, inclusief genderspecifieke context in hun nieuwste GPT 5.2-model. OpenAI moedigt gebruikers aan om te vertrouwen op gekwalificeerde artsen voor beslissingen over zorg en behandeling. Andere geteste bedrijven reageerden niet op de bevindingen van het onderzoek.

Het onderzoek is een duidelijke waarschuwing over de beperkingen van de huidige AI-chatbots op het gebied van de gezondheid van vrouwen. Hoewel AI-hulpmiddelen kunnen evolueren, is het van cruciaal belang om te erkennen dat ze de menselijke expertise op het gebied van medische diagnose en behandeling nog niet kunnen vervangen.