Dans un monde où l’intelligence artificielle évolue rapidement, Apple s’attaque à l’accent anglais des IA. Grâce à des recherches novatrices, la firme de Cupertino vise à améliorer la compréhension et l’interaction humaine. Plongez dans cette avancée technologique qui redéfinit notre relation avec les machines.
La Recherche d’Apple sur l’Accent Anglais de l’IA
Problèmes de Performance des Modèles Linguistiques
Selon de nombreux locuteurs non natifs de l’anglais, les modèles linguistiques de grande taille (LLM) semblent montrer une performance bien supérieure dans la langue de Shakespeare que dans leur propre langue. Les différences peuvent parfois être subtiles, mais dans certains cas, elles sont alarmantes. Une étude menée par Carnegie Mellon en 2023 a révélé que les entrées en langues non anglaises pouvaient plus facilement contourner les filtres de sécurité.
Biais Linguistiques des LLM
Apple a ainsi coécrit une étude visant à proposer une nouvelle méthode pour réduire cet écart. Comme l’explique Apple, « les modèles linguistiques de grande taille actuels sont principalement conçus avec l’anglais comme langue principale, et même ceux qui sont multilingues montrent souvent des biais centrés sur l’anglais ». Il en résulte que même lorsque les modèles génèrent du chinois ou du français, ils « pensent » en anglais, produisant ainsi des sorties qui suivent des schémas de grammaire et de vocabulaire anglais.
Métriques de Naturalité
Pour évaluer cette problématique, des chercheurs d’Apple, en collaboration avec Inria Paris, l’École Polytechnique et l’Université de Rome Sapienza, ont introduit deux nouvelles métriques :
- Naturalité Lexicale : Le modèle utilise-t-il un vocabulaire comparable à celui d’un locuteur natif ?
- Naturalité Syntactique : Structurent-ils les phrases de manière à correspondre à la grammaire des natifs ?
Ces métriques ont été utilisées pour comparer les sorties des modèles avec des articles de Wikipédia écrits par des natifs en chinois, en français et en anglais.
Résultats des Comparaisons
Les résultats ont confirmé la présence de biais. Même le modèle Qwen, développé en Chine, a sous-performé dans toutes les langues, y compris le chinois. Le modèle Llama 3.1 de Meta a montré la performance la plus naturelle dans l’ensemble, mais il restait encore loin du niveau de production humaine.
La Solution Proposée par Apple
Pour réduire cet écart, Apple a formé un modèle pour privilégier des sorties sonnant naturellement par rapport à celles qui sont maladroites. Ils ont utilisé une méthode astucieuse : au lieu de collecter manuellement des exemples non naturels, ils les ont générés automatiquement grâce à la rétro-traduction.
Un exemple de réponse écrite par un humain en chinois serait d’abord traduit en anglais, puis retranscrit en chinois, introduisant des schémas subtils d’anomalies connues sous le nom de « translationese ». Ces sorties manipulées ont servi comme exemples négatifs, tandis que les versions originales ont été utilisées comme réponses préférées.
Amélioration des Performances Linguistiques
En entraînant le modèle à privilégier la version plus naturelle, Apple a pu améliorer considérablement le choix de vocabulaire et la grammaire, sans dégrader les performances générales sur les benchmarks standards. Ce développement pourrait avoir des implications significatives pour l’utilisation d’IA multilingue à l’avenir.
Pour en savoir plus, vous pouvez consulter des ressources sur le site de Carnegie Mellon concernant les biais des modèles linguistiques.
Qu’est-ce que propose l’étude d’Apple ?
Apple propose une nouvelle méthode pour réduire les biais des modèles de langage, en favorisant des sorties plus naturelles dans des langues autres que l’anglais.
Quelles mesures ont été introduites par les chercheurs ?
Ils ont introduit deux nouvelles mesures : la Naturalité Lexicale, qui évalue l’utilisation du vocabulaire, et la Naturalité Syntaxique, qui examine la structure des phrases par rapport à la grammaire native.
Quels résultats ont été observés dans l’étude ?
Les résultats ont confirmé des biais significatifs, même dans des modèles développés en chinois, avec des performances inférieures aux articles écrits par des natifs.
Comment Apple a-t-il amélioré son modèle ?
Apple a formé un modèle pour privilégier les sorties naturelles en générant automatiquement des exemples non naturels par rétro-traduction, ce qui a permis d’améliorer le choix de vocabulaire et la grammaire.






Discussion about this post