AI Dungeon Masters: Bagaimana Dungeons & Dragons Menguji Kecerdasan Buatan

0
11

Para peneliti menggunakan permainan peran meja Dungeons & Dragons (D&D) sebagai uji coba yang mengejutkan namun efektif untuk pengembangan kecerdasan buatan (AI). Tujuannya? Untuk menilai seberapa baik AI dapat terlibat dalam strategi jangka panjang, pemecahan masalah kolaboratif, dan interaksi yang berbeda dengan sistem AI lain dan pemain manusia. Ini bukan hanya tentang bermain game; ini merupakan langkah penting dalam membangun AI yang lebih mumpuni untuk aplikasi di dunia nyata.

Mengapa Dungeon & Naga?

D&D menyediakan lingkungan unik yang memadukan aturan terstruktur dengan kreativitas tanpa batas. Tidak seperti banyak tempat pengujian AI lainnya, D&D menuntut model tidak hanya menghitung gerakan optimal tetapi juga berkomunikasi secara efektif, mengingat peristiwa masa lalu, dan mengantisipasi tindakan lawan. Game ini secara efektif menjembatani kesenjangan antara pemrosesan bahasa abstrak dan mekanisme game yang konkret, menjadikannya tempat pembuktian yang ideal.

Studi tersebut, yang baru-baru ini dipresentasikan pada konferensi NeurIPS 2025, menyoroti bagaimana agen AI dapat mengambil peran seperti Dungeon Master (DM) – pendongeng dan pengontrol monster – atau bermain sebagai pahlawan bersama orang lain. Kerangka kerja tersebut, yang dijuluki “Agen D&D,” memungkinkan skenario pemain campuran: LLM bermain melawan LLM, LLM bermain dengan manusia, atau kelompok semua manusia.

“Dungeons & Dragons adalah ajang pengujian alami untuk mengevaluasi perencanaan multilangkah, kepatuhan terhadap aturan, dan strategi tim,” kata Raj Ammanabrolu, asisten profesor di Universitas California, San Diego. “Karena permainan terungkap melalui dialog, D&D juga membuka jalan langsung bagi interaksi manusia-AI.”

Skenario Tempur dan Performa Model

Eksperimen tersebut berfokus pada pertemuan pertempuran terisolasi dari petualangan populer “Tambang Phandelver yang Hilang”. Para peneliti menguji tiga model AI – DeepSeek-V3, Claude Haiku 3.5, dan GPT-4 – yang mengukur perencanaan jangka panjang, pengelolaan sumber daya, dan keterampilan koordinasi mereka.

Temuan utama meliputi:

  • Claude Haiku 3.5 menunjukkan efisiensi tempur yang unggul, terutama dalam skenario yang menantang, dengan memanfaatkan sumber daya yang tersedia secara agresif.
  • GPT-4 tampil paling belakang, sementara DeepSeek-V3 mengalami kesulitan paling besar.
  • Semua model menunjukkan tingkat konsistensi karakter yang berbeda-beda, dengan Claude Haiku 3.5 unggul dalam menyesuaikan dialog dengan peran tertentu (misalnya, Paladin yang saleh versus Druid yang liar).

Simulasi ini juga mengungkapkan hal-hal yang tidak terduga, seperti monster yang dikendalikan AI mengembangkan kepribadian yang berbeda, bahkan para goblin meneriakkan teriakan perang seperti: “Heh — pria berkilau itu akan berdarah!”

Implikasi di Dunia Nyata

Ini bukan hanya keingintahuan akademis. Keterampilan yang diasah dalam D&D diterjemahkan langsung ke aplikasi penting di dunia nyata, termasuk:

  • Pengoptimalan rantai pasokan: AI dapat merencanakan logistik kompleks dengan ketergantungan jangka panjang.
  • Lini manufaktur: AI dapat mengoordinasikan beberapa proses untuk efisiensi yang lebih besar.
  • Pemodelan tanggap bencana: AI dapat melakukan simulasi dan menyusun strategi untuk penyebaran bantuan yang efektif.
  • Operasi pencarian dan penyelamatan: AI dapat mengoordinasikan tim dan menganalisis lingkungan yang dinamis.

Kemampuan AI untuk bertindak secara independen dan andal dalam jangka waktu lama, sambil tetap menjaga koherensi, sangat penting dalam skenario ini.

Masa Depan Permainan Peran AI

Para peneliti berencana memperluas simulasi untuk mencakup kampanye D&D secara penuh, termasuk elemen narasi dan improvisasi. Hal ini akan mendorong batas-batas kreatif AI lebih jauh, menguji kemampuannya untuk bereaksi terhadap masukan tak terduga baik dari manusia maupun agen AI lainnya. Penelitian ini menunjukkan bahwa menguji AI dalam lingkungan yang kompleks dan interaktif seperti D&D adalah cara yang sangat efektif untuk membangun sistem yang lebih kuat dan mudah beradaptasi.