AI Chatbots Gagal Memberikan Saran Kesehatan Wanita yang Akurat

0
13

Chatbot AI yang umum digunakan sering kali kesulitan memberikan saran medis yang tepat untuk pertanyaan kesehatan wanita, terutama yang memerlukan perhatian mendesak. Sebuah penelitian baru-baru ini mengungkapkan bahwa model ini sering kali gagal dalam mendiagnosis secara akurat atau memberikan panduan bermanfaat mengenai masalah-masalah penting di bidang pengobatan darurat, ginekologi, dan neurologi. Temuan ini menggarisbawahi kesenjangan yang signifikan dalam kemampuan AI untuk menangani pertanyaan medis spesifik gender secara efektif.

Tes Tolok Ukur

Para peneliti dari AS dan Eropa menguji 13 model bahasa besar (LLM), termasuk model dari OpenAI, Google, Anthropic, Mistral AI, dan xAI, terhadap daftar 96 pertanyaan medis yang dikurasi. Tes ini dirancang oleh tim yang terdiri dari 17 ahli kesehatan wanita, apoteker, dan dokter. Hasilnya mengkhawatirkan: 60% pertanyaan dijawab tanpa saran medis yang memadai. GPT-5 memiliki kinerja terbaik, 47% gagal, sedangkan Mistral 8B memiliki tingkat kegagalan tertinggi, yaitu 73%.

Hal ini menimbulkan pertanyaan kritis tentang keandalan AI dalam layanan kesehatan, terutama ketika perempuan mungkin menggunakan alat ini untuk diagnosis mandiri atau dukungan pengambilan keputusan. Pemimpin studi tersebut, Victoria-Elisabeth Gruber dari Lumos AI, mencatat bahwa tingkat kegagalan yang tinggi sangatlah mengejutkan. “Kami memperkirakan adanya kesenjangan, namun tingkat variasi antar model sangat menonjol,” katanya.

Mengapa Ini Penting

Masalahnya berasal dari cara model AI dilatih. AI belajar dari data historis yang mengandung bias bawaan, termasuk yang ditemukan dalam pengetahuan medis. Menurut Cara Tannenbaum di Universitas Montreal, hal ini menyebabkan kesenjangan sistematis dalam pemahaman AI tentang masalah kesehatan terkait seks dan gender. Temuan ini menyoroti kebutuhan mendesak akan konten terkini dan berbasis bukti di situs web layanan kesehatan dan pedoman profesional.

Perdebatan Mengenai Metode Pengujian

Beberapa ahli, seperti Jonathan H. Chen di Universitas Stanford, berpendapat bahwa tingkat kegagalan sebesar 60% menyesatkan karena sampel pengujiannya terbatas dan terlalu konservatif. Ia menyatakan bahwa skenario yang diuji—seperti mencurigai adanya preeklampsia pada wanita pasca melahirkan dengan sakit kepala—dirancang untuk memicu tingkat kegagalan yang tinggi.

Gruber mengakui kritik ini, dan mengklarifikasi bahwa tolok ukur tersebut sengaja dibuat ketat. “Tujuan kami bukan untuk mengklaim model secara umum tidak aman, tetapi untuk menentukan standar evaluasi yang berlandaskan klinis,” jelasnya. Dalam layanan kesehatan, kelalaian kecil sekalipun dapat menimbulkan konsekuensi serius.

Tanggapan OpenAI

OpenAI merespons dengan menyatakan bahwa ChatGPT dimaksudkan untuk mendukung, bukan menggantikan, perawatan medis. Perusahaan menekankan evaluasi dan perbaikan berkelanjutan, termasuk konteks spesifik gender dalam model GPT 5.2 terbaru mereka. OpenAI mendorong pengguna untuk mengandalkan dokter yang berkualifikasi untuk mengambil keputusan dalam perawatan dan pengobatan. Perusahaan lain yang diuji tidak menanggapi temuan penelitian tersebut.

Studi ini merupakan peringatan yang jelas tentang keterbatasan chatbot AI yang ada saat ini dalam bidang kesehatan wanita. Meskipun alat AI dapat berkembang, penting untuk menyadari bahwa alat tersebut belum dapat menggantikan keahlian manusia dalam diagnosis dan pengobatan medis.