Niedawne badania sugerują, że podstawowe wady w architekturze współczesnych wiodących modeli sztucznej inteligencji (AI) – zwłaszcza dużych modeli językowych (LLM), takich jak ChatGPT, Claude i Gemini – mogą uniemożliwiać im osiągnięcie prawdziwej inteligencji na poziomie ludzkim. Modele te, choć imponujące w zadaniach takich jak generowanie tekstu, są podatne na „błędy w rozumowaniu”, które podważają ich niezawodność w rozwiązywaniu złożonych problemów.
Kluczowy problem: przewidywanie statystyczne, brak myślenia
LLM działają poprzez przewidywanie najbardziej statystycznie prawdopodobnego następnego słowa lub frazy w oparciu o ogromne zbiory danych tekstowych. To podejście doskonale sprawdza się w zadaniach językowych, ale brakuje mu prawdziwego logicznego myślenia. Modelki nie myślą ; naśladują myślenie, łącząc żetony w oparciu o wyuczone wzorce.
To rozróżnienie ma znaczenie, ponieważ prawdziwe rozumowanie wymaga spójnego, niezawodnego przetwarzania na wielu etapach, czego często nie są w stanie zapewnić LLM. Na przykład mogą sobie zaprzeczać, mieć trudności z problemami wieloetapowymi lub wielokrotnie dawać tę samą (błędną) odpowiedź. Nie jest to błąd, ale konsekwencja samej architektury.
Dlaczego Transformersy są kiepskie w logice
Dominującą architekturą leżącą u podstaw większości nowoczesnych LLM jest transformatorowa sieć neuronowa. Mechanizmy samouważności w transformatorach pozwalają im identyfikować powiązania między słowami i pojęciami. Jednak mechanizmy te nie są równoznaczne z prawdziwym zrozumieniem.
LLM mogą w przekonujący sposób symulować rozumowanie, ale często sprowadza się to do tworzenia wiarygodnego łańcucha myśli, a nie do przeprowadzania faktycznych logicznych wniosków. Naukowcy z Instytutu Alana Turinga opisują to jako „przewidywanie następnego tokenu ukrytego pod postacią łańcucha myśli”.
Ta słabość jest widoczna w sposobie, w jaki LLM radzą sobie z problemami kompozycyjnymi (takimi jak testowanie instrukcji wielowymiarowych) lub nawet prostymi problemami matematycznymi. Często tracą kluczowe informacje w dłuższych sekwencjach, co prowadzi do przewidywalnych usterek.
Słabości w sprawdzaniu AI
Współczesne testy porównawcze AI również są problematyczne. W badaniu zwrócono uwagę na trzy krytyczne kwestie:
- Wrażliwość zapytań: Drobne zmiany w brzmieniu pytania mogą radykalnie zmienić odpowiedź LLM.
- Zanieczyszczenie wzorców: Powtarzające się korzystanie z wzorców pozwala LLM nauczyć się je „oszukiwać”.
- Zorientowanie na wynik: Testy porównawcze zwykle oceniają tylko wynik rozumowania, a nie sam proces.
Te niedociągnięcia oznaczają, że dzisiejsze wskaźniki wydajności sztucznej inteligencji mogą zawyżać rzeczywiste możliwości.
Jak zauważył jeden z badaczy, samo wdrożenie sztucznej inteligencji służy obecnie jako poligon doświadczalny, ujawniający błędy, których nie zauważają tradycyjne testy porównawcze. Cykl ten uwydatnia potrzebę opracowania lepszych metod oceny, jednak uzależnienie od sztucznej inteligencji w testowaniu sztucznej inteligencji pozostaje trudnym problemem.
Poza skalowaniem: czego potrzeba, aby osiągnąć prawdziwą AGI?
Badanie nie odrzuca całkowicie sieci neuronowych. Zamiast tego argumentuje, że samo zwiększenie rozmiaru modelu lub ilości danych szkoleniowych prawdopodobnie osiągnie swój limit. Prawdziwa sztuczna inteligencja ogólna (AGI) może wymagać innowacji architektonicznych.
Z badania wynika, że postęp zależy od:
- Opracowywanie modeli, które mogą integrować ustrukturyzowane rozumowanie z ucieleśnioną interakcją.
- Tworzenie solidniejszych „modeli świata”, które pozwalają AI zrozumieć ograniczenia świata rzeczywistego.
- Ulepszenia solidnego uczenia się, aby zmniejszyć zależność od wzorców statystycznych.
Ostatecznie ograniczenia współczesnych programów LLM wskazują, że osiągnięcie AGI może wymagać fundamentalnego przemyślenia na nowo sposobu zbudowania sztucznej inteligencji.
Jeden z badaczy stwierdził bez ogródek: „Transformatory nie są sposobem na budowanie cyfrowej inteligencji”. Chociaż są to potężne modele językowe, brakuje im podstawowych mechanizmów poznawczych potrzebnych do wiarygodnego rozumowania na poziomie ludzkim. Dalsze działania prawdopodobnie polegają na badaniu alternatywnych architektur i podejść do rozwoju sztucznej inteligencji.
























