додому Останні новини та статті ШІ-чат-боти не можуть надати точну інформацію про жіноче здоров’я

ШІ-чат-боти не можуть надати точну інформацію про жіноче здоров’я

0
ШІ-чат-боти не можуть надати точну інформацію про жіноче здоров’я

Широко використовувані чат-боти зі штучним інтелектом часто мають труднощі з наданням правильних медичних порад щодо проблем жіночого здоров’я, особливо у випадках, коли потрібна невідкладна допомога. Недавнє дослідження показало, що ці моделі часто не можуть точно діагностувати або надавати корисні рекомендації щодо критичних проблем у невідкладній медицині, гінекології та неврології. Результати підкреслюють значну прогалину в здатності штучного інтелекту ефективно обробляти гендерні медичні запити.

Тест-драйв

Дослідники зі США та Європи протестували 13 великих мовних моделей (LLM), включаючи моделі OpenAI, Google, Anthropic, Mistral AI та xAI, на основі підібраного списку з 96 медичних запитів. Тест був розроблений групою з 17 експертів з жіночого здоров’я, фармацевтів і лікарів. Результати були тривожними: на 60% запитань було надано недостатню медичну інформацію. GPT-5 показав кращий результат, але все одно вийшов з ладу в 47% випадків, тоді як Mistral 8B мав найвищий відсоток невдач — 73%.

Це ставить під сумнів надійність ШІ в охороні здоров’я, особливо тому, що жінки можуть звертатися до цих інструментів для самодіагностики або підтримки прийняття рішень. Керівник дослідження Вікторія-Елізабет Грубер з Lumos AI зазначила, що високий відсоток невдач був неочікуваним. «Ми очікували прогалини, але ступінь відмінностей між моделями виділявся», — сказала вона.

Чому це важливо

Проблема полягає в тому, як навчаються моделі ШІ. Штучний інтелект навчається на історичних даних, які містять вбудовані упередження, зокрема медичні знання. За словами Кара Танненбаум з Університету Монреаля, це призводить до систематичних прогалин у розумінні ШІ проблем, пов’язаних зі здоров’ям, на основі статі та гендеру. Результати підкреслюють нагальну потребу в оновленому вмісті веб-сайту охорони здоров’я та професійних порадах, що ґрунтуються на фактичних даних.

Суперечки щодо методів тестування

Деякі експерти, такі як Джонатан Х. Чен зі Стенфордського університету, стверджують, що 60% відсоток невдач вводить в оману, оскільки тестова вибірка була обмеженою та надто консервативною. Він зазначає, що перевірені сценарії — наприклад, негайна підозра на прееклампсію у жінок після пологів із головним болем — розроблені таким чином, щоб спровокувати високий рівень невдач.

Грубер визнає цю критику, уточнюючи, що стандарт був навмисно суворим. «Нашою метою було не сказати, що моделі загалом небезпечні, а визначити клінічно обґрунтований стандарт для оцінки», — пояснила вона. У сфері охорони здоров’я навіть незначні недогляди можуть мати серйозні наслідки.

Відповідь від OpenAI

OpenAI відповів, заявивши, що ChatGPT призначений для підтримки, а не заміни медичної допомоги. Компанія наголошує на поточних оцінках і вдосконаленнях, включаючи гендерний контекст, у своїй останній моделі GPT 5.2. OpenAI заохочує користувачів покладатися на кваліфікованих лікарів для прийняття рішень щодо лікування. Інші перевірені компанії не відповіли на результати опитування.

Дослідження є чітким попередженням про обмеження сучасних чат-ботів зі штучним інтелектом у сфері жіночого здоров’я. Хоча інструменти зі штучним інтелектом можуть розвиватися, важливо пам’ятати, що вони ще не можуть замінити людський досвід у медичній діагностиці та лікуванні.

Exit mobile version