Des recherches récentes suggèrent que des défauts fondamentaux dans l’architecture des principaux modèles d’intelligence artificielle (IA) actuels – en particulier les grands modèles de langage (LLM) comme ChatGPT, Claude et Gemini – pourraient les empêcher d’atteindre une véritable intelligence au niveau humain. Ces modèles, bien qu’impressionnants dans des tâches telles que la génération de texte, sont sujets à des « échecs de raisonnement » qui minent leur fiabilité dans la résolution de problèmes complexes.
Le problème central : la prévision statistique, pas la pensée
Les LLM fonctionnent en prédisant le prochain mot ou la prochaine phrase statistiquement probable sur la base de vastes ensembles de données de texte. Cette approche excelle dans les tâches linguistiques mais manque de véritable raisonnement logique. Les modèles ne pensent ; ils simulent la pensée en enchaînant des jetons basés sur des modèles appris.
Cette distinction est importante car le raisonnement réel nécessite un traitement cohérent et fiable sur plusieurs étapes, ce que les LLM ne parviennent souvent pas à fournir. Par exemple, ils peuvent se contredire, se débattre avec des problèmes en plusieurs étapes ou produire des réponses identiques (incorrectes) à plusieurs reprises. Ce n’est pas un bug mais une conséquence de l’architecture elle-même.
Pourquoi les transformateurs ont du mal avec la logique
L’architecture dominante derrière la plupart des LLM actuels est le réseau neuronal du transformateur. Les mécanismes d’auto-attention au sein des transformateurs leur permettent d’identifier les relations entre les mots et les concepts. Cependant, ces mécanismes n’équivalent pas à une véritable compréhension.
Les LLM peuvent imiter le raisonnement de manière convaincante, mais cela repose souvent sur la simple production d’une chaîne de pensée plausible plutôt que sur une véritable déduction logique. Les chercheurs de l’Institut Alan Turing décrivent cela comme « une prédiction du prochain jeton déguisée en chaîne de pensée ».
Cette faiblesse est évidente dans la manière dont les LLM gèrent les tâches de composition (comme la vérification d’affirmations multifaites) ou même les problèmes mathématiques de base. Ils perdent fréquemment la trace des informations clés au fil de séquences plus longues, entraînant des pannes prévisibles.
Les failles dans la façon dont nous testons l’IA
Les références actuelles en matière d’IA sont également problématiques. L’étude met en évidence trois questions cruciales :
- Sensibilité de l’invite : De légères modifications dans la formulation d’une question peuvent considérablement modifier la réponse d’un LLM.
- Contamination des benchmarks : L’utilisation répétée de benchmarks permet aux LLM d’apprendre à les « tromper ».
- Axé sur les résultats : Les benchmarks évaluent généralement uniquement le résultat du raisonnement, et non le processus lui-même.
Ces lacunes signifient que les mesures de performances actuelles de l’IA peuvent surestimer les capacités du monde réel.
Comme l’a souligné un chercheur, le déploiement de l’IA lui-même sert désormais de terrain d’essai, révélant des échecs que les benchmarks traditionnels ne parviennent pas à détecter. Ce cycle renforce la nécessité de meilleures méthodes d’évaluation, mais le recours à l’IA pour tester l’IA reste un problème difficile.
Au-delà de la mise à l’échelle : que faut-il pour une véritable AGI ?
La recherche n’écarte pas entièrement les réseaux de neurones. Au lieu de cela, il soutient que la simple augmentation de la taille du modèle ou des données de formation atteindra probablement une limite. La véritable intelligence artificielle générale (AGI) peut nécessiter une innovation architecturale.
L’étude suggère que les progrès dépendent :
- Développer des modèles capables d’intégrer un raisonnement structuré avec une interaction incarnée.
- Construire des « modèles mondiaux » plus solides qui permettent à l’IA de comprendre les contraintes du monde réel.
- Améliorer la formation en robustesse pour réduire le recours aux modèles statistiques.
En fin de compte, les limites des LLM actuels suggèrent que pour atteindre l’AGI, il faudra peut-être repenser fondamentalement la façon dont l’IA est construite.
Un chercheur a déclaré sans ambages : « Les Transformers ne permettent pas de construire un esprit numérique. » Bien qu’ils soient des modèles de langage puissants, ils ne disposent pas des mécanismes cognitifs sous-jacents nécessaires à un raisonnement fiable au niveau humain. La voie à suivre réside probablement dans l’exploration d’architectures et d’approches alternatives au développement de l’IA.























