Recent onderzoek suggereert dat fundamentele tekortkomingen in de architectuur van de huidige toonaangevende modellen voor kunstmatige intelligentie (AI) – met name grote taalmodellen (LLM’s) zoals ChatGPT, Claude en Gemini – hen ervan kunnen weerhouden echte intelligentie op menselijk niveau te bereiken. Hoewel deze modellen indrukwekkend zijn bij taken als het genereren van tekst, zijn ze gevoelig voor ‘redeneerfouten’ die hun betrouwbaarheid bij het oplossen van complexe problemen ondermijnen.
Het kernprobleem: statistische voorspellingen, geen gedachten
LLM’s werken door het statistisch meest waarschijnlijke volgende woord of de volgende zin te voorspellen op basis van enorme datasets met tekst. Deze aanpak blinkt uit in taaltaken, maar mist echt logisch redeneren. De modellen denken niet; ze simuleren gedachten door tokens aan elkaar te rijgen op basis van aangeleerde patronen.
Dit onderscheid is van belang omdat echt redeneren consistente, betrouwbare verwerking over meerdere stappen vereist, iets wat LLM’s vaak niet kunnen leveren. Ze kunnen zichzelf bijvoorbeeld tegenspreken, worstelen met problemen die uit meerdere stappen bestaan, of herhaaldelijk identieke (onjuiste) antwoorden geven. Dit is geen bug, maar een gevolg van de architectuur zelf.
Waarom transformatoren worstelen met logica
De dominante architectuur achter de meeste huidige LLM’s is het transformerende neurale netwerk. Zelfaandachtsmechanismen binnen transformatoren stellen hen in staat relaties tussen woorden en concepten te identificeren. Deze mechanismen staan echter niet gelijk aan feitelijk begrip.
*LLM’s kunnen redeneringen op overtuigende wijze nabootsen, maar dit berust vaak op het eenvoudigweg weergeven van een plausibele gedachtegang in plaats van het uitvoeren van echte logische deducties. * Onderzoekers van het Alan Turing Institute omschrijven dit als ‘volgende voorspelling verkleed als een gedachtegang’.
Deze zwakte komt duidelijk naar voren in de manier waarop LLM’s omgaan met compositietaken (zoals het verifiëren van beweringen over meerdere feiten) of zelfs met elementaire wiskundige problemen. Ze verliezen vaak belangrijke informatie over langere reeksen uit het oog, wat leidt tot voorspelbare mislukkingen.
De tekortkomingen in de manier waarop we AI testen
De huidige AI-benchmarks zijn ook problematisch. De studie benadrukt drie cruciale kwesties:
- Snelle gevoeligheid: Kleine wijzigingen in de formulering van een vraag kunnen het antwoord van een LLM drastisch veranderen.
- Benchmarkvervuiling: Door herhaaldelijk gebruik van benchmarks kunnen LLM’s leren hoe ze deze kunnen ‘misleiden’.
- Uitkomstfocus: Benchmarks beoordelen doorgaans alleen het resultaat van het redeneren, niet het proces zelf.
Deze tekortkomingen betekenen dat de huidige AI-prestatiestatistieken de mogelijkheden in de echte wereld mogelijk overschatten.
Zoals een onderzoeker opmerkte, dient de inzet van AI nu zelf als proeftuin, waarbij tekortkomingen aan het licht komen op manieren die traditionele benchmarks missen. Deze cyclus versterkt de behoefte aan betere evaluatiemethoden, maar de afhankelijkheid van AI om AI te testen blijft een moeilijk probleem.
Beyond Scaling: wat is er nodig voor echte AGI?
Het onderzoek wijst neurale netwerken niet volledig af. In plaats daarvan stelt het dat het eenvoudigweg vergroten van de modelomvang of het vergroten van trainingsgegevens waarschijnlijk een limiet zal bereiken. Echte kunstmatige algemene intelligentie (AGI) kan architecturale innovatie vereisen.
Het onderzoek suggereert dat vooruitgang afhangt van:
- Het ontwikkelen van modellen die gestructureerd redeneren kunnen integreren met belichaamde interactie.
- Het bouwen van sterkere ‘wereldmodellen’ waarmee AI de beperkingen in de echte wereld kan begrijpen.
- Verbetering van de robuustheidstraining om de afhankelijkheid van statistische patronen te verminderen.
Uiteindelijk suggereren de beperkingen van de huidige LLM’s dat het bereiken van AGI een fundamentele heroverweging van de manier waarop AI wordt gebouwd vereist.
Eén onderzoeker stelde botweg: “Met transformers bouw je niet een digitale geest op.” Hoewel ze krachtige taalmodellen zijn, missen ze de onderliggende cognitieve mechanismen die nodig zijn voor betrouwbaar redeneren op menselijk niveau. De weg voorwaarts ligt waarschijnlijk in het verkennen van alternatieve architecturen en benaderingen van AI-ontwikkeling.

























