Обмеження ІІ в міркуваннях: Чому сучасні моделі не досягають людського інтелекту

0
2

Недавні дослідження показують, що фундаментальні недоліки в архітектурі сучасних провідних моделей штучного інтелекту (ІІ) – особливо великих мовних моделей (LLM), таких як ChatGPT, Claude та Gemini – можуть завадити їм досягти справжнього людського рівня інтелекту. Ці моделі, що вражають у таких завданнях, як генерація тексту, схильні до «збоїв у міркуваннях», які підривають їхню надійність при вирішенні складних проблем.

Основна Проблема: Статистичне Пророцтво, а Не Мислення

LLM працюють, пророкуючи найбільш статистично ймовірне наступне слово або фразу на основі величезних наборів текстових даних. Цей підхід досягає успіху в мовних завданнях, але позбавлений справжнього логічного мислення. Моделі не думають ; вони імітують мислення, з’єднуючи токени на основі засвоєних закономірностей.

Ця відмінність має значення, тому що реальне міркування вимагає послідовної, надійної обробки протягом декількох етапів, що LLM часто не можуть забезпечити. Наприклад, вони можуть суперечити самі собі, відчувати труднощі з багатокроковими завданнями або неодноразово видавати одну й ту саму (неправильну) відповідь. Це не помилка, а наслідок самої архітектури.

Чому Трансформери Погано Справляються з Логікою

Домінантною архітектурою, що лежить в основі більшості сучасних LLM, є трансформерна нейронна мережа. Механізми самоуваги всередині трансформерів дозволяють їм виявляти зв’язки між словами та поняттями. Однак ці механізми не еквівалентні реальному розумінню.

  • LLM можуть переконливо імітувати міркування, але це часто зводиться до видачі правдоподібного ланцюжка думок, а не до виконання справжнього логічного висновку.

Ця слабкість проявляється у тому, як LLM справляються з композиційними завданнями (наприклад, з перевіркою багатофакторних тверджень) чи навіть із простими математичними завданнями. Вони часто втрачають ключову інформацію в довших послідовностях, що призводить до передбачуваних збоїв.

Недоліки в перевірці ІІ

Сучасні ІІ-бенчмарки також проблематичні. У дослідженні виділено три критичні проблеми:

  1. ** Чутливість до Запитів: ** Незначні зміни у формулюванні питання можуть різко змінити відповідь LLM.
  2. Забруднення Бенчмарками: Багаторазове використання бенчмарків дозволяє LLM навчитися «обманювати» їх.
  3. Орієнтація на Результат: Бенчмарки зазвичай оцінюють тільки “результат” міркувань, а не “процес” сам по собі.

Ці недоліки означають, що сьогоднішні показники продуктивності ІІ можуть переоцінювати реальні можливості.

Як зазначив один із дослідників, саме розгортання ІІ тепер служить полігоном для тестування, виявляючи збої, які традиційні бенчмарки пропускають. Цей цикл посилює потребу у кращих методах оцінки, але залежність від ІІ для тестування ІІ залишається складною проблемою.

За Межами Масштабування: Що Потрібно для Справжнього AGI?

Дослідження не заперечує нейронні мережі повністю. Натомість у ньому стверджується, що просте збільшення розміру моделі або обсягу навчальних даних, ймовірно, досягне межі. Справжній загальний штучний інтелект може вимагати архітектурних інновацій.

У дослідженні передбачається, що прогрес залежить від:

  • Розробки моделей, які можуть інтегрувати структуроване міркування із втіленою взаємодією.
  • Створення більш надійних «світових моделей», які дозволять ІІ розуміти обмеження реального світу.
  • Поліпшення сталого навчання зниження залежності від статистичних закономірностей.

Зрештою, обмеження сучасних LLM вказують на те, що досягнення AGI може вимагати фундаментального переосмислення того, як будується ІІ.

Один із дослідників прямо заявив: «Трансформери — це не те, як ви будуєте цифровий розум». Хоча це потужні мовні моделі, їм не вистачає основних когнітивних механізмів, необхідних надійного, людського рівня міркування. Шлях вперед, ймовірно, лежить у дослідженні альтернативних архітектур та підходів до розробки ІІ.