Un nouveau modèle d’IA d’Apple, révolutionnaire, génère des scènes 3D à partir de seulement trois images. Cette avancée promet d’améliorer l’expérience utilisateur dans des applications telles que la réalité augmentée. Avec des entreprises comme Google et Meta également en compétition, l’innovation technologique s’accélère.

L’équipe de Machine Learning d’Apple, en collaboration avec les chercheurs de l’Université de Nanjing et de l’Université des Sciences et Technologies de Hong Kong, a récemment présenté un modèle d’IA 3D fascinant nommé Matrix3D.
Ce modèle, connu sous le nom de Large Photogrammetry Model, est capable de reconstruire des objets et des scènes 3D à partir de seulement quelques photos 2D, mais avec une différence majeure par rapport aux pipelines actuels. Voici pourquoi cela représente une avancée considérable.
Tout d’abord, qu’est-ce que la photogrammétrie ? Cette technique utilise des photographies pour réaliser des mesures en vue de créer des modèles ou des cartes 3D. Actuellement, ce processus nécessite l’utilisation de différents modèles pour des étapes telles que l’estimation de la pose et la prédiction de la profondeur, ce qui peut entraîner des inefficacités et des erreurs.
Matrix3D simplifie tout cela en réalisant l’ensemble du processus en une seule étape. Il prend en compte les images, les paramètres de la caméra (comme l’angle et la distance focale) et les données de profondeur, puis les traite grâce à une architecture unifiée. Cela non seulement simplifie le flux de travail, mais améliore également la précision des résultats.

Un aspect encore plus fascinant du modèle est la méthode de formation utilisée. Les chercheurs ont appliqué une stratégie d’apprentissage masqué, très similaire à celle des premiers systèmes d’IA basés sur les Transformers qui ont ouvert la voie aux premières versions de ChatGPT.
Durant le processus de formation, des parties des données d’entrée ont été cachées au hasard, obligeant Matrix3D à apprendre à combler les lacunes. Cette technique est essentielle car elle permet à Matrix3D de s’entraîner efficacement même avec des ensembles de données plus petits ou incomplets.
Les résultats sont impressionnants. Avec seulement trois images d’entrée, Matrix3D peut générer des reconstructions 3D détaillées d’objets, voire d’environnements entiers. Cela ouvre des perspectives intéressantes pour des cas d’utilisation dans des casques immersifs tels que l’Apple Vision Pro.
Les chercheurs ont rendu le code source de Matrix3D disponible sur GitHub et ont publié leur article sur arXiv. De plus, ils ont créé un site web où il est possible de visionner des vidéos de démonstration et même d’interagir avec quelques recréations en nuages de points d’objets et d’environnements.
Qu’est-ce que le modèle Matrix3D ?
Matrix3D est un modèle d’IA 3D capable de reconstruire des objets et des scènes 3D à partir de seulement quelques photos 2D, simplifiant le processus de photogrammétrie traditionnel.
Comment Matrix3D améliore-t-il le processus de photogrammétrie ?
Il intègre l’estimation de pose, la prédiction de profondeur et d’autres étapes en une seule architecture unifiée, ce qui améliore l’efficacité et la précision du flux de travail.
Quels sont les résultats de l’utilisation de Matrix3D ?
Avec seulement trois images d’entrée, Matrix3D peut générer des reconstructions 3D détaillées d’objets et même de paysages entiers, ouvrant des applications intéressantes pour des casques immersifs.
Comment Matrix3D a-t-il été entraîné ?
Les chercheurs ont utilisé une stratégie d’apprentissage masqué, forçant le modèle à apprendre à combler les lacunes des données d’entrée, ce qui lui permet de s’entraîner efficacement même avec de petits ensembles de données.






Discussion about this post