Powszechnie używane chatboty AI często mają trudności z udzielaniem prawidłowych porad medycznych w kwestiach zdrowotnych kobiet, zwłaszcza w przypadkach wymagających pomocy w nagłych przypadkach. Niedawne badanie wykazało, że modele te często nie diagnozują prawidłowo ani nie dostarczają przydatnych zaleceń dotyczących kluczowych kwestii w medycynie ratunkowej, ginekologii i neurologii. Wyniki podkreślają znaczną lukę w zdolności sztucznej inteligencji do skutecznego radzenia sobie z zapytaniami medycznymi dotyczącymi płci.
Jazda próbna
Naukowcy z USA i Europy przetestowali 13 dużych modeli językowych (LLM), w tym modele z OpenAI, Google, Anthropic, Mistral AI i xAI, na podstawie wyselekcjonowanej listy 96 zapytań medycznych. Test został opracowany przez zespół 17 ekspertów w dziedzinie zdrowia kobiet, farmaceutów i lekarzy. Wyniki były alarmujące: na 60% pytań udzielono odpowiedzi, podając niewystarczające informacje medyczne. GPT-5 działał lepiej, ale nadal zawodził w 47% przypadków, podczas gdy Mistral 8B miał najwyższy wskaźnik awaryjności wynoszący 73%.
Stawia to pod znakiem zapytania niezawodność sztucznej inteligencji w opiece zdrowotnej, zwłaszcza że kobiety mogą korzystać z tych narzędzi w celu autodiagnozy lub wspomagania decyzji. Kierownik badania Victoria-Elisabeth Gruber z Lumos AI zauważyła, że wysoki wskaźnik awaryjności był nieoczekiwany. „Spodziewaliśmy się luk, ale zakres różnic między modelami był wyraźny” – powiedziała.
Dlaczego to jest ważne
Problem leży w sposobie uczenia modeli sztucznej inteligencji. Sztuczna inteligencja uczy się na podstawie danych historycznych, które zawierają wbudowane uprzedzenia, w tym wiedzy medycznej. Zdaniem Kary Tannenbaum z Uniwersytetu w Montrealu prowadzi to do systematycznych luk w rozumieniu przez sztuczną inteligencję zagadnień związanych ze zdrowiem ze względu na płeć i płeć. Wyniki podkreślają pilną potrzebę aktualizacji treści stron internetowych poświęconych zdrowiu i profesjonalnych porad opartych na dowodach.
Spory dotyczące metod testowania
Niektórzy eksperci, na przykład Jonathan H. Chen z Uniwersytetu Stanforda, twierdzą, że 60% wskaźnik niepowodzeń jest mylący, ponieważ próba testowa była ograniczona i zbyt konserwatywna. Zwraca uwagę, że przetestowane scenariusze – na przykład natychmiastowe podejrzenie stanu przedrzucawkowego u kobiet po porodzie cierpiących na bóle głowy – mają na celu zwiększenie wskaźnika niepowodzeń.
Gruber uznaje tę krytykę, wyjaśniając, że norma była celowo rygorystyczna. „Naszym celem nie było stwierdzenie, że modele są ogólnie niebezpieczne, ale określenie klinicznie uzasadnionego standardu oceny” – wyjaśniła. W służbie zdrowia nawet drobne niedopatrzenia mogą mieć poważne konsekwencje.
Odpowiedź od OpenAI
OpenAI odpowiedziało, stwierdzając, że ChatGPT ma na celu wspieranie, a nie zastępowanie opieki medycznej. Firma podkreśla ciągłe oceny i ulepszenia, w tym kontekst specyficzny dla płci, w swoim najnowszym modelu GPT 5.2. OpenAI zachęca użytkowników do polegania na wykwalifikowanych lekarzach przy podejmowaniu decyzji dotyczących leczenia. Pozostałe badane firmy nie odpowiedziały na wyniki ankiety.
Badanie stanowi wyraźne ostrzeżenie o ograniczeniach obecnych chatbotów AI w dziedzinie zdrowia kobiet. Choć narzędzia AI mogą ewoluować, należy pamiętać, że nie mogą one jeszcze zastąpić ludzkiej wiedzy w zakresie diagnostyki i leczenia medycznego.


























