Une nouvelle étude d’Apple révèle comment les robots peuvent apprendre à agir en observant les humains. En intégrant des techniques d’apprentissage par imitation, cette recherche vise à transformer l’interaction homme-machine. Découvrez comment cette avancée technologique pourrait révolutionner l’intelligence artificielle et améliorer notre quotidien.

Robot voir, robot faire
Le projet, présenté dans un article intitulé “Humanoid Policy ∼ Human Policy”, émerge d’une collaboration entre des chercheurs de Apple, MIT, Carnegie Mellon, l’Université de Washington et UC San Diego. L’objectif principal est d’explorer l’utilisation de séquences vidéo en première personne, montrant des humains manipulant divers objets, pour entraîner des modèles de robots humanoïdes polyvalents.
Les chercheurs ont collecté plus de 25 000 démonstrations humaines et 1 500 démonstrations de robots, créant ainsi un ensemble de données qu’ils ont appelé PH2D. Ce dernier a été intégré dans une politique d’intelligence artificielle unifiée capable de contrôler un véritable robot humanoïde dans le monde physique.
Comme l’expliquent les auteurs de l’étude, il est crucial d’entraîner des politiques de manipulation pour les robots humanoïdes à partir de données diversifiées, car cela augmente leur robustesse et leur généralisation dans différents contextes. L’apprentissage basé uniquement sur des démonstrations de robots demeure laborieux et coûteux, rendant la mise à l’échelle difficile.
Un entraînement plus rapide et moins coûteux
Pour recueillir les données d’entraînement, l’équipe a développé une application pour l’Apple Vision Pro qui capture des vidéos à partir de la caméra inférieure gauche de l’appareil, tout en utilisant ARKit d’Apple pour suivre les mouvements 3D de la tête et des mains.
Dans un souci d’économie, ils ont également conçu un support imprimé en 3D pour fixer une caméra stéréo ZED Mini à d’autres casques, comme le Meta Quest 3, permettant un suivi des mouvements 3D à moindre coût.

Cette configuration a permis d’enregistrer des démonstrations de haute qualité en quelques secondes, un progrès considérable par rapport aux méthodes traditionnelles de téléopération qui sont plus lentes, coûteuses et difficiles à mettre à l’échelle. De plus, vu que les humains se déplacent plus rapidement que les robots, les chercheurs ont ralenti les démonstrations humaines par un facteur de quatre pendant l’entraînement, afin de permettre au robot de suivre sans nécessiter d’ajustements supplémentaires.
Le Transformateur d’Actions Humaines (HAT)
Le cœur de cette étude repose sur un modèle appelé HAT, qui est formé à partir de démonstrations humaines et robotiques dans un format partagé. Au lieu de séparer les données par source (humains contre robots), HAT apprend une politique unique qui se généralise à travers les deux types de corps, rendant le système plus flexible et efficace en termes de données.
Dans certains tests, cette approche d’entraînement partagé a permis au robot de gérer des tâches plus difficiles, y compris celles qu’il n’avait pas encore rencontrées, par rapport à des méthodes plus traditionnelles.

Globalement, cette recherche offre des perspectives fascinantes sur l’avenir de la robotique. Pour plus d’informations sur ce sujet, consultez cet article sur MIT Technology Review.
Qu’est-ce que le projet de formation des robots humanoïdes d’Apple ?
Le projet est une collaboration entre Apple, MIT, Carnegie Mellon, l’Université de Washington et UC San Diego, visant à utiliser des vidéos en première personne de personnes manipulant des objets pour former des modèles de robots polyvalents.
Comment les données d’entraînement sont-elles collectées ?
L’équipe a développé une application Apple Vision Pro qui capture des vidéos et utilise ARKit d’Apple pour suivre les mouvements de la tête et des mains, ainsi qu’un montage imprimé en 3D pour des caméras alternatives.
Qu’est-ce que le Human Action Transformer (HAT) ?
Le HAT est un modèle entraîné à partir de démonstrations humaines et robotiques dans un format partagé, permettant une politique unique qui généralise entre les deux types de corps, rendant le système plus flexible et efficace en matière de données.
Quels sont les avantages de cette approche par rapport aux méthodes traditionnelles ?
Cette méthode permet d’enregistrer des démonstrations de haute qualité rapidement, tout en améliorant la capacité du robot à gérer des tâches plus difficiles par rapport aux méthodes d’entraînement traditionnelles.






Discussion about this post