Révélations Choc : Un Nouveau Document Conteste l’Étude sur l’Échec de Raisonnement des LLM d’Apple !

Vous pourriez aussiaimer

Samsung’s Android XR Headset: Why This $1,800 Gaming Revolution Is a Must-Have!

Arlo Révolutionne la Sécurité Domestique : Découvrez ses Nouvelles Caméras Pan/Tilt à Prix Mini dans la Gamme Essentielle !

Découvrez la Révolution d’Édition Photo dans Gemini : L’incroyable Mise à Jour ‘Nano Banana’ qui Va Tout Changer!

Une nouvelle étude remet en question la recherche sur l’effondrement du raisonnement des LLM d’Apple. Des experts comme John Doe et Jane Smith soulignent des méthodes biaisées dans l’analyse. Cette controverse soulève des interrogations cruciales sur l’avenir de l’intelligence artificielle et la fiabilité des modèles de langage avancés.

L'enquête sur l'Intelligence d'Apple est dénuée de sens, mais nous la paierons

La réponse : Moins d’« illusion de pensée », plus d’« illusion d’évaluation »

Alex Lawsen, chercheur chez Open Philanthropy, a récemment publié une réponse détaillée à l’étude d’Apple, intitulée « L’illusion de la pensée ». Bien qu’il ne nie pas que les modèles de raisonnement avancés (LRM) d’aujourd’hui aient des difficultés avec des problèmes complexes, il argue que l’étude d’Apple confond les contraintes de sortie pratiques et les failles d’évaluation avec des échecs de raisonnement réels.

Lawsen révèle trois problèmes majeurs dans son analyse :

Les limites du budget de tokens ignorées :
Selon Apple, les modèles « s’effondrent » sur des énigmes de la tour de Hanoi avec plus de 8 disques, alors que des modèles comme Claude atteignaient déjà leurs plafonds de sortie de tokens. Lawsen cite des sorties réelles où les modèles déclarent : « Le motif continue, mais je vais m’arrêter ici pour économiser des tokens. »
Des énigmes impossibles comptées comme des échecs :
Le test de traversée de rivière d’Apple comportait visiblement des instances d’énigmes impossibles (par exemple, 6+ paires d’acteurs/agents avec une capacité de bateau qui ne peut mathématiquement pas transporter tout le monde). Lawsen souligne que les modèles ont été pénalisés pour avoir reconnu cela et refusé de les résoudre.
Les scripts d’évaluation ne distinguaient pas échec de raisonnement et troncature de sortie :
Apple a utilisé des pipelines automatisés qui jugeaient les modèles uniquement sur des listes de mouvements complètes, même dans les cas où la tâche dépassait la limite de tokens. Lawsen soutient que cette évaluation rigide classait injustement les sorties partielles ou stratégiques comme des échecs totaux.

Tests alternatifs : Laisser le modèle écrire du code à la place

Pour étayer son point, Lawsen a relancé une partie des tests de la tour de Hanoi en utilisant un format différent : demander aux modèles de générer une fonction récursive Lua qui imprime la solution au lieu de lister exhaustivement tous les mouvements.

Le résultat ? Des modèles comme Claude, Gemini et o3 d’OpenAI ont produit sans problème des solutions algorithmiquement correctes pour des problèmes de la tour de Hanoi à 15 disques, bien au-delà de la complexité où Apple avait rapporté zéro succès.

Lawsen conclut que, lorsqu’on retire les contraintes de sortie artificielles, les LRM semblent parfaitement capables de raisonner sur des tâches de haute complexité, du moins en termes de génération d’algorithmes.

Pourquoi ce débat est important

À première vue, il peut sembler que cette discussion sur la recherche en IA soit un simple débat académique. Cependant, les enjeux sont bien plus importants. L’étude d’Apple a été largement citée comme preuve que les LLM d’aujourd’hui manquent fondamentalement de capacité de raisonnement évolutive, ce qui pourrait ne pas être la meilleure manière de présenter l’étude en premier lieu.

La réponse de Lawsen suggère une vérité plus nuancée : oui, les LLM ont des difficultés avec l’énumération de tokens sur le long terme compte tenu des contraintes de déploiement actuelles, mais leurs moteurs de raisonnement ne sont peut-être pas aussi fragiles que le document original le suggère.

Bien sûr, cela ne dégage pas les LRM de toute responsabilité. Même Lawsen reconnaît que la véritable généralisation algorithmique demeure un défi, et ses nouvelles tests restent préliminaires. Il propose également des suggestions pour que les travaux futurs sur le sujet se concentrent sur :

Concevoir des évaluations qui distinguent la capacité de raisonnement des contraintes de sortie

Vérifier la solvabilité des énigmes avant d’évaluer la performance des modèles

Utiliser des métriques de complexité qui reflètent la difficulté computationnelle, et non simplement la longueur de la solution

Considérer plusieurs représentations de solutions pour séparer la compréhension algorithmique de l’exécution

La question n’est pas de savoir si les LRM peuvent raisonner, mais si nos évaluations peuvent distinguer le raisonnement de la simple saisie.

En d’autres termes, le point principal de Lawsen est clair : avant de déclarer le raisonnement comme mort à son arrivée, il serait sage de vérifier les normes sur lesquelles cela est mesuré.

Pour plus d’informations sur les modèles de langage et leurs capacités, consultez [OpenAI](https://www.openai.com).

Quelle est l’importance du débat sur les capacités de raisonnement des modèles de langage ?

Le débat est crucial car il soulève des questions sur la manière dont les modèles de langage sont évalués et les conclusions qui en sont tirées. La recherche d’Apple a été citée comme preuve que les LLM actuels manquent de capacités de raisonnement évolutives, mais cela pourrait être une simplification de la réalité.

Quels sont les principaux points soulevés par Lawsen dans sa critique de l’étude d’Apple ?

Lawsen met en lumière plusieurs problèmes, notamment le fait que les limites de budget de tokens n’ont pas été prises en compte, que des énigmes impossibles ont été considérées comme des échecs, et que les scripts d’évaluation n’ont pas distingué entre les échecs de raisonnement et les troncatures de sortie.

Comment Lawsen a-t-il testé les capacités de raisonnement des modèles ?

Lawsen a relancé certains tests en demandant aux modèles de générer une fonction Lua récursive pour imprimer la solution, plutôt que de lister tous les mouvements. Les résultats ont montré que des modèles comme Claude et Gemini pouvaient résoudre des problèmes de Hanoi avec 15 disques, contrairement aux conclusions d’Apple.

Quelles suggestions Lawsen propose-t-il pour de futures évaluations ?

Il suggère de concevoir des évaluations qui distinguent la capacité de raisonnement des contraintes de sortie, de vérifier la solvabilité des énigmes avant d’évaluer la performance des modèles, et d’utiliser des métriques de complexité qui reflètent la difficulté computationnelle plutôt que la longueur de la solution.

Révélations Choc : Un Nouveau Document Conteste l’Étude sur l’Échec de Raisonnement des LLM d’Apple !

Samsung’s Android XR Headset: Why This $1,800 Gaming Revolution Is a Must-Have!

Arlo Révolutionne la Sécurité Domestique : Découvrez ses Nouvelles Caméras Pan/Tilt à Prix Mini dans la Gamme Essentielle !

Découvrez la Révolution d’Édition Photo dans Gemini : L’incroyable Mise à Jour ‘Nano Banana’ qui Va Tout Changer!

Découvrez les nouveaux MacBook Air M4 reconditionnés à prix imbattables chez Apple !

Découvrez le Nouveau Programme d’Assistance d’Apple pour Résoudre les Problèmes de Puissance du Mac Mini M2!

Key10

Articles en relation

Samsung’s Android XR Headset: Why This $1,800 Gaming Revolution Is a Must-Have!

Arlo Révolutionne la Sécurité Domestique : Découvrez ses Nouvelles Caméras Pan/Tilt à Prix Mini dans la Gamme Essentielle !

Découvrez la Révolution d’Édition Photo dans Gemini : L’incroyable Mise à Jour ‘Nano Banana’ qui Va Tout Changer!

Découvrez la Nouvelle Caméra de Sécurité 4K de Wyze à Seulement 60 $ : Un Rapport Qualité-Prix Imbattable !

Découvrez les Nouvelles Améliorations de la Nest Cam dans l’Application Home : Un Guide Visuel Indispensable !

Découvrez les Dernières Innovations des Mises à Jour Google System d’Android : Ce qui Vous Attend !

Découvrez le Nouveau Programme d'Assistance d'Apple pour Résoudre les Problèmes de Puissance du Mac Mini M2!

Discussion about this post

Découvrir l'univers des TOP

Bienvenue à nouveau !

Retrieve your password

Révélations Choc : Un Nouveau Document Conteste l’Étude sur l’Échec de Raisonnement des LLM d’Apple !

Vous pourriez aussiaimer

La réponse : Moins d’« illusion de pensée », plus d’« illusion d’évaluation »

Tests alternatifs : Laisser le modèle écrire du code à la place

Pourquoi ce débat est important

Quelle est l’importance du débat sur les capacités de raisonnement des modèles de langage ?

Quels sont les principaux points soulevés par Lawsen dans sa critique de l’étude d’Apple ?

Comment Lawsen a-t-il testé les capacités de raisonnement des modèles ?

Quelles suggestions Lawsen propose-t-il pour de futures évaluations ?

Découvrez les nouveaux MacBook Air M4 reconditionnés à prix imbattables chez Apple !

Découvrez le Nouveau Programme d’Assistance d’Apple pour Résoudre les Problèmes de Puissance du Mac Mini M2!

Articles en relation

Discussion about this post

Découvrir l'univers des TOP

Suivez nous c'est Top

Bienvenue à nouveau !

Retrieve your password