KI-Chatbots bieten keine genaue Gesundheitsberatung für Frauen

0
4

Üblicherweise eingesetzte KI-Chatbots haben oft Schwierigkeiten, korrekte medizinische Ratschläge für Gesundheitsfragen von Frauen zu geben, insbesondere wenn sie dringend behandelt werden müssen. Eine kürzlich durchgeführte Studie ergab, dass diese Modelle häufig keine genaue Diagnose stellen oder keine hilfreiche Anleitung zu kritischen Themen in der Notfallmedizin, Gynäkologie und Neurologie bieten. Die Ergebnisse unterstreichen eine erhebliche Lücke in der Fähigkeit der KI, geschlechtsspezifische medizinische Anfragen effektiv zu bearbeiten.

Der Benchmark-Test

Forscher aus den USA und Europa testeten 13 große Sprachmodelle (LLMs), darunter solche von OpenAI, Google, Anthropic, Mistral AI und xAI, anhand einer kuratierten Liste von 96 medizinischen Abfragen. Der Test wurde von einem Team aus 17 Frauengesundheitsexperten, Apothekern und Klinikern entwickelt. Die Ergebnisse waren alarmierend: 60 % der Fragen wurden mit unzureichender medizinischer Beratung beantwortet. GPT-5 schnitt am besten ab und schlug in 47 % der Fälle fehl, während Mistral 8B mit 73 % die höchste Ausfallrate aufwies.

Dies wirft kritische Fragen zur Zuverlässigkeit von KI im Gesundheitswesen auf, insbesondere wenn Frauen diese Tools zur Selbstdiagnose oder Entscheidungsunterstützung nutzen. Die Leiterin der Studie, Victoria-Elisabeth Gruber von Lumos AI, stellte fest, dass die hohe Ausfallrate überraschend sei. „Wir hatten mit Lücken gerechnet, aber der Grad der Variation zwischen den Modellen fiel auf“, erklärte sie.

Warum das wichtig ist

Das Problem ergibt sich aus der Art und Weise, wie KI-Modelle trainiert werden. KI lernt aus historischen Daten, die inhärente Vorurteile enthalten, einschließlich solcher, die im medizinischen Wissen zu finden sind. Laut Cara Tannenbaum von der Universität Montreal führt dies zu systematischen Lücken im Verständnis der KI für geschlechtsspezifische Gesundheitsprobleme. Die Ergebnisse unterstreichen den dringenden Bedarf an aktualisierten, evidenzbasierten Inhalten auf Gesundheitswebsites und Berufsrichtlinien.

Debatte über Testmethoden

Einige Experten, wie Jonathan H. Chen von der Stanford University, argumentieren, dass die Ausfallrate von 60 % irreführend sei, weil die Teststichprobe begrenzt und zu konservativ sei. Er weist darauf hin, dass die getesteten Szenarien – etwa der sofortige Verdacht auf eine Präeklampsie bei Frauen nach der Geburt mit Kopfschmerzen – darauf ausgelegt sind, hohe Ausfallraten auszulösen.

Gruber erkennt diese Kritik an und stellt klar, dass der Maßstab bewusst streng war. „Unser Ziel war es nicht zu behaupten, dass Modelle allgemein unsicher seien, sondern einen klinisch fundierten Standard für die Bewertung zu definieren“, erklärte sie. Im Gesundheitswesen können bereits geringfügige Versäumnisse schwerwiegende Folgen haben.

Antwort von OpenAI

OpenAI antwortete mit der Aussage, dass ChatGPT die medizinische Versorgung unterstützen und nicht ersetzen soll. Das Unternehmen legt in seinem neuesten GPT 5.2-Modell Wert auf laufende Evaluierungen und Verbesserungen, einschließlich des geschlechtsspezifischen Kontexts. OpenAI ermutigt Benutzer, sich bei Pflege- und Behandlungsentscheidungen auf qualifizierte Ärzte zu verlassen. Andere getestete Unternehmen reagierten nicht auf die Ergebnisse der Studie.

Die Studie ist eine klare Warnung vor den Grenzen aktueller KI-Chatbots für die Gesundheit von Frauen. KI-Tools können sich zwar weiterentwickeln, es ist jedoch wichtig zu erkennen, dass sie menschliches Fachwissen in der medizinischen Diagnose und Behandlung noch nicht ersetzen können.