Ограничения ИИ в Рассуждениях: Почему Современные Модели Не Достигают Человеческого Интеллекта

0
8

Недавние исследования показывают, что фундаментальные недостатки в архитектуре современных ведущих моделей искусственного интеллекта (ИИ) – особенно больших языковых моделей (LLM), таких как ChatGPT, Claude и Gemini – могут помешать им достичь настоящего человеческого уровня интеллекта. Эти модели, впечатляющие в таких задачах, как генерация текста, склонны к «сбоям в рассуждениях», которые подрывают их надёжность при решении сложных проблем.

Основная Проблема: Статистическое Предсказание, а Не Мышление

LLM работают, предсказывая наиболее статистически вероятное следующее слово или фразу на основе огромных наборов текстовых данных. Этот подход преуспевает в языковых задачах, но лишён настоящего логического мышления. Модели не думают ; они имитируют мышление, соединяя токены на основе усвоенных закономерностей.

Это различие имеет значение, потому что реальное рассуждение требует последовательной, надёжной обработки на протяжении нескольких этапов, что LLM часто не могут обеспечить. Например, они могут противоречить сами себе, испытывать трудности с многошаговыми задачами или неоднократно выдавать один и тот же (неправильный) ответ. Это не ошибка, а следствие самой архитектуры.

Почему Трансформеры Плохо Справляются с Логикой

Доминирующей архитектурой, лежащей в основе большинства современных LLM, является трансформерная нейронная сеть. Механизмы самовнимания внутри трансформеров позволяют им выявлять связи между словами и понятиями. Однако эти механизмы не эквивалентны реальному пониманию.

LLM могут убедительно имитировать рассуждения, но это часто сводится к выдаче правдоподобной цепочки мыслей, а не к выполнению настоящего логического вывода. Исследователи из Института Алана Тьюринга описывают это как «предсказание следующего токена, замаскированное под цепочку мыслей».

Эта слабость проявляется в том, как LLM справляются с композиционными задачами (например, с проверкой многофакторных утверждений) или даже с простыми математическими задачами. Они часто теряют ключевую информацию в более длинных последовательностях, что приводит к предсказуемым сбоям.

Недостатки в Проверке ИИ

Современные ИИ-бенчмарки также проблематичны. В исследовании выделены три критические проблемы:

  1. Чувствительность к Запросам: Незначительные изменения в формулировке вопроса могут резко изменить ответ LLM.
  2. Загрязнение Бенчмарками: Многократное использование бенчмарков позволяет LLM научиться «обманывать» их.
  3. Ориентация на Результат: Бенчмарки обычно оценивают только результат рассуждений, а не процесс сам по себе.

Эти недостатки означают, что сегодняшние показатели производительности ИИ могут переоценивать реальные возможности.

Как отметил один из исследователей, само развёртывание ИИ теперь служит полигоном для тестирования, выявляя сбои, которые традиционные бенчмарки пропускают. Этот цикл усиливает потребность в лучших методах оценки, но зависимость от ИИ для тестирования ИИ остаётся сложной проблемой.

За Пределами Масштабирования: Что Нужно для Настоящего AGI?

Исследование не отвергает нейронные сети полностью. Вместо этого в нём утверждается, что простое увеличение размера модели или объёма обучающих данных, вероятно, достигнет предела. Настоящий общий искусственный интеллект (AGI) может потребовать архитектурных инноваций.

В исследовании предполагается, что прогресс зависит от:

  • Разработки моделей, которые могут интегрировать структурированное рассуждение с воплощённым взаимодействием.
  • Создания более надёжных «мировых моделей», которые позволят ИИ понимать ограничения реального мира.
  • Улучшения устойчивого обучения для снижения зависимости от статистических закономерностей.

В конечном итоге, ограничения современных LLM указывают на то, что достижение AGI может потребовать фундаментального переосмысления того, как строится ИИ.

Один из исследователей прямо заявил: «Трансформеры — это не то, как вы строите цифровой разум». Хотя это мощные языковые модели, им не хватает основных когнитивных механизмов, необходимых для надёжного, человеческого уровня рассуждения. Путь вперёд, вероятно, лежит в исследовании альтернативных архитектур и подходов к разработке ИИ.