Apple a révolutionné l’IA en formant un modèle capable de raisonner sur les interfaces d’application et d’optimiser la lisibilité. Cette avancée souligne l’engagement de l’entreprise envers l’innovation, tout en renforçant l’expérience utilisateur. Découvrez comment cette technologie pourrait transformer le paysage des applications mobiles.
ILuvUI : un AI qui surpasse le modèle sur lequel il était basé
Une nouvelle étude soutenue par Apple, en collaboration avec Aalto University en Finlande, présente ILuvUI : un modèle de vision-langage entraîné pour comprendre les interfaces d’applications mobiles à partir de captures d’écran et de conversations en langage naturel. Ce modèle aborde un défi de longue date dans l’interaction homme-machine (HCI) : apprendre aux modèles d’IA à raisonner sur les interfaces utilisateur comme le font les humains, c’est-à-dire à la fois de manière visuelle et sémantique.
“Comprendre et automatiser des actions sur les interfaces utilisateur est une tâche complexe, car les éléments d’interface d’un écran, tels que les éléments de liste, les cases à cocher et les champs de texte, encodent de nombreuses couches d’informations au-delà de leurs affordances pour l’interactivité seule.”
Actuellement, comme l’expliquent les chercheurs, la plupart des modèles de vision-langage sont entraînés sur des images naturelles, comme des chiens ou des panneaux de signalisation, ce qui réduit leur performance lorsqu’il s’agit d’interpréter des environnements plus structurés, tels que les interfaces d’applications :
“Fusionner l’information visuelle avec l’information textuelle est crucial pour comprendre les interfaces utilisateur, car cela reflète la manière dont de nombreux humains interagissent avec le monde.”
Dans cette optique, les chercheurs ont affiné le modèle de vision-langage open-source LLaVA et ont également adapté sa méthode d’entraînement pour se spécialiser dans le domaine des interfaces utilisateur.
Ils l’ont entraîné sur des paires texte-image générées de manière synthétique à partir de quelques “exemples en or”. Le jeu de données final comprenait des interactions de type Q&A, des descriptions détaillées d’écran, des résultats d’actions prédits et même des plans en plusieurs étapes, comme “comment écouter le dernier épisode d’un podcast” ou “comment changer les paramètres de luminosité”.
Une fois entraîné sur cet ensemble de données, le modèle ILuvUI a pu surpasser le LLaVA original dans des benchmarks machine et des tests de préférence humaine.

De plus, ILuvUI ne nécessite pas que l’utilisateur spécifie une région d’intérêt dans l’interface. Au lieu de cela, le modèle comprend l’intégralité de l’écran contextuellement à partir d’une simple invite :
ILuvUI (…) n’exige pas de région d’intérêt et accepte une invite textuelle comme entrée en plus de l’image de l’interface, ce qui lui permet de fournir des réponses pour des cas d’utilisation tels que le questionnement visuel.

Comment les utilisateurs bénéficieront-ils de cette technologie ?
Les chercheurs d’Apple affirment que leur approche pourrait s’avérer utile pour l’accessibilité ainsi que pour le test automatisé des interfaces utilisateur. Ils notent également qu’alors qu’ILuvUI est encore basé sur des composants open-source, des travaux futurs pourraient impliquer des encodeurs d’images plus grands, une meilleure gestion de la résolution et des formats de sortie qui fonctionnent sans problème avec les frameworks d’interface utilisateur existants, comme le JSON.
Par ailleurs, si vous suivez les recherches d’Apple, vous vous rappelez peut-être d’une récente enquête sur la possibilité pour les modèles d’IA non seulement de comprendre, mais aussi d’anticiper les conséquences des actions dans les applications.
En combinant ces deux avancées, les perspectives deviennent fascinantes, notamment pour ceux qui dépendent de l’accessibilité pour naviguer sur leurs appareils, ou ceux qui souhaitent que le système d’exploitation puisse gérer de manière autonome les aspects les plus complexes de leurs workflows dans les applications.
Pour en savoir plus sur les modèles de vision-langage, vous pouvez consulter des travaux de recherche sur ce sujet sur arXiv.
Qu’est-ce qu’ILuvUI ?
ILuvUI est un modèle de vision-langage développé par des chercheurs d’Apple en collaboration avec l’Université Aalto en Finlande. Il est conçu pour comprendre les interfaces d’applications mobiles à partir de captures d’écran et de conversations en langage naturel.
Comment ILuvUI améliore-t-il l’interaction homme-machine ?
ILuvUI permet aux modèles d’IA de raisonner sur les interfaces utilisateur comme le ferait un humain, en intégrant des informations visuelles et sémantiques, ce qui améliore considérablement la compréhension des environnements structurés par rapport aux images naturelles.
Quels sont les avantages pour les utilisateurs ?
Les utilisateurs peuvent bénéficier d’améliorations en matière d’accessibilité et de tests automatisés des interfaces utilisateur. ILuvUI peut également anticiper les conséquences des actions effectuées dans les applications, rendant l’interaction plus fluide et intuitive.
Comment ILuvUI fonctionne-t-il avec les données d’entraînement ?
ILuvUI a été formé sur des paires texte-image générées de manière synthétique, incluant des interactions de type questions-réponses et des descriptions détaillées des écrans, ce qui lui permet de surpasser son modèle d’origine dans les tests de performance.






Discussion about this post