Nedávný výzkum naznačuje, že zásadní chyby v architektuře současných předních modelů umělé inteligence (AI) – zejména velkých jazykových modelů (LLM), jako jsou ChatGPT, Claude a Gemini – jim mohou bránit v dosažení skutečné inteligence na lidské úrovni. Tyto modely, přestože jsou působivé v úkolech, jako je generování textu, jsou náchylné k „selháním uvažování“, které podkopávají jejich spolehlivost při řešení složitých problémů.
Klíčový problém: Statistická předpověď, nemyšlení
LLM fungují tak, že předpovídají statisticky nejpravděpodobnější další slovo nebo frázi na základě obrovských souborů textových dat. Tento přístup vyniká v jazykových úkolech, ale postrádá skutečné logické myšlení. Modelky nemyslí ; napodobují myšlení propojováním žetonů na základě naučených vzorců.
Na tomto rozdílu záleží, protože skutečné uvažování vyžaduje konzistentní a spolehlivé zpracování ve více krocích, což LLM často nemohou poskytnout. Mohou si například protiřečit, mít potíže s vícekrokovými problémy nebo opakovaně produkovat stejnou (špatnou) odpověď. To není chyba, ale důsledek samotné architektury.
Proč jsou Transformers špatní v logice
Dominantní architekturou, která je základem většiny moderních LLM, je transformátorová neuronová síť. Mechanismy sebepozorování v rámci transformátorů jim umožňují identifikovat spojení mezi slovy a pojmy. Tyto mechanismy však nejsou ekvivalentní skutečnému porozumění.
LLM dokážou přesvědčivě simulovat uvažování, ale to často vede k vytvoření věrohodného řetězce myšlenek, spíše než k provedení skutečného logického úsudku. Výzkumníci z Alan Turing Institute to popisují jako „předvídání dalšího tokenu maskovaného jako řetězec myšlenek“.
Tato slabina je evidentní v tom, jak LLM zvládají kompoziční problémy (jako je testování příkazů s více proměnnými) nebo dokonce jednoduché matematické problémy. Často ztrácejí klíčové informace v delších sekvencích, což vede k předvídatelným závadám.
Nedostatky v kontrole AI
Problematické jsou také moderní benchmarky AI. Studie zdůrazňuje tři zásadní problémy:
- Citlivost dotazu: Drobné změny ve formulaci otázky mohou dramaticky změnit odpověď LLM.
- Benchmark Pollution: Opakované používání benchmarků umožňuje LLM naučit se je „podvádět“.
- Orientace na výsledek: Benchmarky obvykle hodnotí pouze výsledek uvažování, nikoli proces samotný.
Tyto nedostatky znamenají, že dnešní metriky výkonu AI mohou přeceňovat skutečné možnosti.
Jak poznamenal jeden výzkumník, samotné nasazení umělé inteligence nyní slouží jako testovací základna, která odhaluje selhání, která tradičním benchmarkům unikají. Tento cyklus posiluje potřebu lepších metod hodnocení, ale závislost na AI při testování AI zůstává náročným problémem.
Beyond Scaling: Co je potřeba pro skutečné AGI?
Studie zcela nezavrhuje neuronové sítě. Místo toho tvrdí, že pouhé zvýšení velikosti modelu nebo množství trénovacích dat pravděpodobně dosáhne svého limitu. Skutečná umělá obecná inteligence (AGI) může vyžadovat architektonické inovace.
Studie naznačuje, že pokrok závisí na:
- Vývoj modelů, které mohou integrovat strukturované uvažování se ztělesněnou interakcí.
- Vytváření robustnějších „modelů světa“, které umožňují umělé inteligenci porozumět omezením reálného světa.
- Vylepšení robustního učení pro snížení závislosti na statistických vzorech.
Omezení moderních LLM nakonec naznačují, že dosažení AGI může vyžadovat zásadní přehodnocení toho, jak je umělá inteligence budována.
Jeden z výzkumníků otevřeně prohlásil: “Transformátory nevytváří digitální inteligenci.” Přestože se jedná o silné jazykové modely, postrádají základní kognitivní mechanismy potřebné pro spolehlivé uvažování na lidské úrovni. Cesta vpřed pravděpodobně spočívá ve zkoumání alternativních architektur a přístupů k vývoji AI.

























