Batasan Penalaran AI: Mengapa Model Saat Ini Kurang Memenuhi Kecerdasan Manusia

0
9

Penelitian terbaru menunjukkan bahwa kelemahan mendasar dalam arsitektur model kecerdasan buatan (AI) terkemuka saat ini – khususnya model bahasa besar (LLM) seperti ChatGPT, Claude, dan Gemini – dapat menghalangi mereka mencapai kecerdasan setingkat manusia. Model-model ini, meskipun mengesankan dalam tugas-tugas seperti pembuatan teks, rentan terhadap “kegagalan penalaran” yang melemahkan keandalannya dalam pemecahan masalah yang kompleks.

Masalah Inti: Prediksi Statistik, Bukan Pemikiran

LLM beroperasi dengan memprediksi kata atau frasa berikutnya yang paling mungkin secara statistik berdasarkan kumpulan data teks yang luas. Pendekatan ini unggul dalam tugas-tugas bahasa tetapi tidak memiliki penalaran logis yang asli. Para model tidak berpikir ; mereka mensimulasikan pemikiran dengan merangkai token berdasarkan pola yang dipelajari.

Pembedaan ini penting karena penalaran sebenarnya memerlukan pemrosesan yang konsisten dan andal dalam beberapa langkah, hal yang sering kali gagal dilakukan oleh LLM. Misalnya, LLM mungkin bertentangan dengan dirinya sendiri, kesulitan menghadapi soal multi-langkah, atau menghasilkan jawaban yang identik (salah) berulang kali. Ini bukan bug, melainkan konsekuensi dari arsitektur itu sendiri.

Mengapa Transformers Berjuang dengan Logika

Arsitektur dominan di balik sebagian besar LLM saat ini adalah jaringan saraf transformator. Mekanisme perhatian diri dalam transformator memungkinkan mereka mengidentifikasi hubungan antara kata dan konsep. Namun, mekanisme ini tidak sama dengan pemahaman sebenarnya.

LLM dapat meniru penalaran secara meyakinkan, namun hal ini sering kali bergantung pada keluaran rangkaian pemikiran yang masuk akal dibandingkan melakukan deduksi logis yang asli. Para peneliti di Alan Turing Institute menggambarkan hal ini sebagai “prediksi token berikutnya yang dibalut sebagai rangkaian pemikiran.”

Kelemahan ini terlihat jelas dalam cara LLM menangani tugas komposisi (seperti memverifikasi klaim multi-fakta) atau bahkan soal matematika dasar. Mereka sering kali kehilangan jejak informasi penting dalam urutan yang lebih panjang, sehingga menyebabkan kegagalan yang dapat diprediksi.

Kelemahan dalam Cara Kami Menguji AI

Tolok ukur AI saat ini juga bermasalah. Studi ini menyoroti tiga isu penting:

  1. Sensitivitas Cepat: Perubahan kecil pada kata-kata pertanyaan dapat mengubah respons LLM secara drastis.
  2. Kontaminasi Tolok Ukur: Penggunaan tolok ukur yang berulang-ulang memungkinkan LLM mempelajari cara “menipu” tolok ukur tersebut.
  3. Fokus Hasil: Tolok ukur biasanya hanya menilai hasil penalaran, bukan proses itu sendiri.

Kekurangan ini berarti bahwa metrik kinerja AI saat ini mungkin melebih-lebihkan kemampuan di dunia nyata.

Seperti yang dikemukakan oleh seorang peneliti, penerapan AI sendiri kini berfungsi sebagai ajang pengujian, mengungkap kegagalan yang tidak dapat dicapai oleh tolok ukur tradisional. Siklus ini memperkuat kebutuhan akan metode evaluasi yang lebih baik, namun ketergantungan pada AI untuk menguji AI masih menjadi masalah yang sulit.

Melampaui Penskalaan: Apa yang Dibutuhkan untuk AGI Sejati?

Penelitian ini tidak sepenuhnya mengabaikan jaringan saraf. Sebaliknya, mereka berpendapat bahwa peningkatan ukuran model atau data pelatihan saja kemungkinan besar akan mencapai batasnya. Kecerdasan umum buatan (AGI) yang sebenarnya mungkin memerlukan inovasi arsitektur.

Studi ini menunjukkan bahwa kemajuan bergantung pada:

  • Mengembangkan model yang dapat mengintegrasikan penalaran terstruktur dengan interaksi yang diwujudkan.
  • Membangun “model dunia” yang lebih kuat yang memungkinkan AI memahami kendala di dunia nyata.
  • Meningkatkan pelatihan ketahanan untuk mengurangi ketergantungan pada pola statistik.

Pada akhirnya, keterbatasan LLM saat ini menunjukkan bahwa mencapai AGI mungkin memerlukan pemikiran ulang secara mendasar bagaimana AI dibangun.

Seorang peneliti dengan blak-blakan menyatakan, “Transformer bukanlah cara Anda membangun pikiran digital.” Meskipun merupakan model bahasa yang kuat, mereka tidak memiliki mekanisme kognitif mendasar yang diperlukan untuk penalaran tingkat manusia yang dapat diandalkan. Jalan ke depan kemungkinan besar terletak pada eksplorasi arsitektur dan pendekatan alternatif terhadap pengembangan AI.