Onderzoekers gebruiken het rollenspel Dungeons & Dragons (D&D) als een verrassend maar effectief testbed voor de ontwikkeling van kunstmatige intelligentie (AI). Het doel? Om te beoordelen hoe goed AI zich kan bezighouden met langetermijnstrategieën, gezamenlijke probleemoplossing en genuanceerde interactie met zowel andere AI-systemen * als * menselijke spelers. Dit gaat niet alleen over gamen; het is een cruciale stap in de richting van het bouwen van meer capabele AI voor toepassingen in de echte wereld.
Waarom Dungeons & Dragons?
D&D biedt een unieke omgeving die gestructureerde regels combineert met grenzeloze creativiteit. In tegenstelling tot veel andere AI-proeftuinen, eist D&D dat modellen niet alleen optimale bewegingen berekenen, maar ook effectief communiceren, gebeurtenissen uit het verleden onthouden en acties van tegenstanders anticiperen*. Het spel overbrugt effectief de kloof tussen abstracte taalverwerking en concrete spelmechanismen, waardoor het een ideaal proefterrein is.
Het onderzoek, onlangs gepresenteerd op de NeurIPS 2025-conferentie, benadrukt hoe AI-agenten rollen kunnen vervullen als Dungeon Master (DM) – de verhalenverteller en monstercontroller – of samen met anderen als helden kunnen spelen. Het raamwerk, genaamd “D&D Agents”, maakt scenario’s voor gemengde spelers mogelijk: LLM’s die tegen LLM’s spelen, LLM’s die met mensen spelen, of volledig menselijke groepen.
“Dungeons & Dragons is een natuurlijke proeftuin voor het evalueren van meerstapsplanning, het naleven van regels en teamstrategie”, zegt Raj Ammanabrolu, assistent-professor aan de Universiteit van Californië, San Diego. “Omdat het spel zich ontvouwt via dialoog, opent D&D ook een directe weg voor mens-AI-interactie.”
Gevechtsscenario’s en modelprestaties
De experimenten waren gericht op geïsoleerde gevechtsontmoetingen uit het populaire avontuur ‘Lost Mine of Phandelver’. Onderzoekers testten drie AI-modellen – DeepSeek-V3, Claude Haiku 3.5 en GPT-4 – waarbij hun vaardigheden op het gebied van planning, middelenbeheer en coördinatie op de lange horizon werden gemeten.
De belangrijkste bevindingen zijn onder meer:
- Claude Haiku 3.5 toonde superieure gevechtsefficiëntie, vooral in uitdagende scenario’s, door agressief gebruik te maken van de beschikbare middelen.
- GPT-4 presteerde vlak achter, terwijl DeepSeek-V3 het het moeilijkst had.
- Alle modellen vertoonden een verschillende mate van karakterconsistentie, waarbij Claude Haiku 3.5 uitblonk in het afstemmen van dialogen op specifieke rollen (bijvoorbeeld een vrome Paladijn versus een wilde Druïde).
De simulatie bracht ook onverwachte eigenaardigheden aan het licht, zoals door AI bestuurde monsters die verschillende persoonlijkheden ontwikkelden, waarbij goblins zelfs strijdkreten schreeuwden als: “Heh – de glanzende man gaat bloeden!”
Implicaties in de echte wereld
Dit is niet alleen academische nieuwsgierigheid. De vaardigheden die zijn aangescherpt in D&D vertalen zich rechtstreeks naar kritische toepassingen in de echte wereld, waaronder:
- Optimalisatie van de toeleveringsketen: AI kan complexe logistiek plannen met langdurige afhankelijkheden.
- Productielijnen: AI kan meerdere processen coördineren voor meer efficiëntie.
- Modellering van respons op rampen: AI kan een strategie simuleren en een strategie opstellen voor een effectieve inzet van hulp.
- Zoek- en reddingsoperaties: AI kan teams coördineren en dynamische omgevingen analyseren.
Het vermogen van AI om gedurende langere perioden onafhankelijk en betrouwbaar te handelen, met behoud van de samenhang, is cruciaal voor deze scenario’s.
De toekomst van AI-rollenspel
De onderzoekers zijn van plan de simulatie uit te breiden tot volledige D&D-campagnes, inclusief verhalende en improvisatie-elementen. Dit zal de creatieve grenzen van AI verder verleggen en het vermogen ervan testen om te reageren op onverwachte input van zowel mensen als andere AI-agenten. Het werk suggereert dat het testen van AI in een complexe, interactieve omgeving als D&D een verrassend effectieve manier is om robuustere en aanpasbare systemen te bouwen.
