Široce používané chatboty s umělou inteligencí mají často potíže s poskytováním správných lékařských rad ohledně zdravotních problémů žen, zejména v případech vyžadujících neodkladnou péči. Nedávná studie zjistila, že tyto modely často nedokážou přesně diagnostikovat nebo poskytnout užitečná doporučení ohledně kritických problémů v urgentní medicíně, gynekologii a neurologii. Výsledky zdůrazňují významnou mezeru ve schopnosti umělé inteligence efektivně řešit lékařské dotazy specifické pro pohlaví.
Zkušební jízda
Výzkumníci z USA a Evropy testovali 13 velkých jazykových modelů (LLM), včetně modelů od OpenAI, Google, Anthropic, Mistral AI a xAI, na kurátorském seznamu 96 lékařských dotazů. Test byl vyvinut týmem 17 odborníků na zdraví žen, lékárníků a lékařů. Výsledky byly alarmující: 60 % otázek bylo zodpovězeno nedostatečnými lékařskými informacemi. GPT-5 fungoval lépe, ale stále selhal ve 47 % případů, zatímco Mistral 8B měl nejvyšší míru selhání, a to 73 %.
To zpochybňuje spolehlivost umělé inteligence ve zdravotnictví, zejména proto, že ženy se mohou na tyto nástroje obrátit pro vlastní diagnostiku nebo podporu rozhodování. Vedoucí studie Victoria-Elisabeth Gruber z Lumos AI poznamenala, že vysoká míra selhání byla neočekávaná. “Očekávali jsme mezery, ale rozsah rozdílů mezi modely vyčníval,” řekla.
Proč je to důležité
Problém spočívá v tom, jak jsou modely AI trénovány. AI se učí z historických dat, která obsahují vestavěné zkreslení, včetně lékařských znalostí. Podle Kary Tannenbaumové z Montrealské univerzity to vede k systematickým mezerám v chápání AI problémům souvisejícím se zdravím na základě pohlaví a pohlaví. Výsledky zdůrazňují naléhavou potřebu aktualizovaného obsahu webových stránek o zdraví a odborného poradenství založeného na důkazech.
Spory ohledně testovacích metod
Někteří odborníci, jako je Jonathan H. Chen ze Stanfordské univerzity, tvrdí, že 60% míra selhání je zavádějící, protože testovací vzorek byl omezený a příliš konzervativní. Poukazuje na to, že testované scénáře – například okamžité podezření na preeklampsii u žen po porodu s bolestmi hlavy – jsou navrženy tak, aby vyvolaly vysokou míru selhání.
Gruber tuto kritiku uznává a objasňuje, že norma byla záměrně přísná. “Naším cílem nebylo říci, že modely jsou obecně nebezpečné, ale definovat klinicky spolehlivý standard pro hodnocení,” vysvětlila. Ve zdravotnictví mohou mít i drobné nedopatření vážné následky.
Odpověď od OpenAI
OpenAI reagoval prohlášením, že ChatGPT je určen k podporě a nikoli nahrazení lékařské péče. Společnost ve svém nejnovějším modelu GPT 5.2 zdůrazňuje průběžná hodnocení a vylepšení, včetně genderově specifického kontextu. OpenAI povzbuzuje uživatele, aby se při rozhodování o léčbě spoléhali na kvalifikované lékaře. Ostatní testované společnosti na výsledky průzkumu nereagovaly.
Studie je jasným varováním před omezeními současných chatbotů s umělou inteligencí v oblasti zdraví žen. Nástroje umělé inteligence se sice mohou vyvíjet, ale je důležité si uvědomit, že zatím nemohou nahradit lidskou odbornost v lékařské diagnostice a léčbě.


























