Широко используемые ИИ-чат-боты часто испытывают трудности с предоставлением правильных медицинских советов по вопросам женского здоровья, особенно в случаях, требующих неотложной помощи. Недавнее исследование показало, что эти модели часто не могут точно диагностировать или давать полезные рекомендации по критическим проблемам в области неотложной медицины, гинекологии и неврологии. Результаты подчеркивают значительный пробел в способности ИИ эффективно обрабатывать медицинские запросы, специфичные для пола.
Тест-драйв
Исследователи из США и Европы протестировали 13 больших языковых моделей (LLM), включая модели от OpenAI, Google, Anthropic, Mistral AI и xAI, на основе тщательно отобранного списка из 96 медицинских запросов. Тест был разработан командой из 17 экспертов по женскому здоровью, фармацевтов и врачей. Результаты оказались тревожными: 60% вопросов были отвечены с недостаточной медицинской информацией. GPT-5 показал лучшие результаты, но всё равно провалился в 47% случаев, в то время как Mistral 8B имел самый высокий процент неудач – 73%.
Это ставит под сомнение надёжность ИИ в здравоохранении, особенно учитывая, что женщины могут обращаться к этим инструментам для самодиагностики или поддержки принятия решений. Руководитель исследования, Виктория-Элизабет Грубер из Lumos AI, отметила, что высокий процент неудач был неожиданным. «Мы ожидали пробелов, но степень различий между моделями выделялась», – заявила она.
Почему Это Важно
Проблема заключается в том, как обучаются ИИ-модели. ИИ учится на исторических данных, которые содержат встроенные предубеждения, в том числе и в медицинских знаниях. По словам Кары Танненбаум из Монреальского университета, это приводит к систематическим пробелам в понимании ИИ проблем, связанных со здоровьем, в зависимости от пола и гендера. Результаты подчеркивают острую необходимость обновления контента на веб-сайтах здравоохранения и профессиональных рекомендаций на основе фактических данных.
Споры О Методах Тестирования
Некоторые эксперты, такие как Джонатан Х. Чен из Стэнфордского университета, утверждают, что 60% неудач вводят в заблуждение, поскольку тестовая выборка была ограничена и чрезмерно консервативной. Он указывает на то, что протестированные сценарии – например, немедленное подозрение на преэклампсию у послеродовых женщин с головными болями – разработаны для провоцирования высоких показателей неудач.
Грубер признаёт эту критику, уточнив, что эталон был намеренно строгим. «Наша цель не состояла в том, чтобы заявлять, что модели в целом небезопасны, а в том, чтобы определить клинически обоснованный стандарт для оценки», – объяснила она. В здравоохранении даже незначительные упущения могут иметь серьёзные последствия.
Ответ OpenAI
OpenAI ответила, заявив, что ChatGPT предназначен для поддержки, а не замены медицинской помощи. Компания подчёркивает постоянные оценки и улучшения, включая контекст, специфичный для пола, в их последней модели GPT 5.2. OpenAI призывает пользователей полагаться на квалифицированных врачей для принятия решений о лечении. Другие протестированные компании не ответили на результаты исследования.
Исследование является чётким предупреждением об ограничениях текущих ИИ-чат-ботов в области женского здоровья. Хотя инструменты ИИ могут развиваться, важно помнить, что они пока не могут заменить человеческий опыт в медицинской диагностике и лечении.


























