Dans le monde de la transcription automatique, Apple a récemment lancé une IA prometteuse. Nous avons confronté cette technologie à Whisper et Parakeet pour évaluer sa précision. Découvrez comment l’innovation d’Apple se positionne face à ces leaders du secteur et ce que cela signifie pour l’avenir de la transcription.
Précision de la nouvelle IA de transcription d’Apple : Comparaison avec Whisper et Parakeet
Contexte des tests
Récemment, le développeur Prakash Pax a réalisé des tests sur la nouvelle API de transcription d’Apple, la comparant avec le modèle Whisper d’OpenAI et le modèle Parakeet de NVIDIA. Il a enregistré 15 échantillons audio en anglais, variant de 15 secondes à 2 minutes, et a utilisé ces trois outils de conversion de la parole en texte.
Outils comparés
- API de transcription d’Apple
- Whisper Large v3 Turbo d’OpenAI
- Scribe v1 d’Eleven Labs
Il est important de noter que les résultats peuvent varier pour d’autres utilisateurs, notamment ceux qui ne sont pas de langue maternelle anglaise, comme l’a souligné Pax.
Méthodologie des tests
Pour mes propres tests, j’ai choisi un épisode récent de 9to5Mac Daily d’une durée de 7 minutes et 31 secondes. J’ai utilisé MacWhisper pour exécuter Whisper Large V3 Turbo et Parakeet v2. Pour l’API de parole d’Apple, j’ai opté pour le projet Yap de Finn Vorhees, le tout exécuté sur un MacBook Pro M2 Pro avec 16 Go de RAM.
Analyse des erreurs
Pour l’analyse des taux d’erreur (Character Error Rate – CER et Word Error Rate – WER), j’ai utilisé deux espaces Hugging Face : cer et wer. Ces espaces précisent leur méthodologie, garantissant que tous les modèles étaient évalués de manière cohérente.
Résultats des tests
Les performances des différents modèles ont été notées et sont présentées ci-dessous.
Tableau des résultats
| Modèle | Temps de transcription | Taux d’erreur de caractères (CER) | Taux d’erreur de mots (WER) |
|---|---|---|---|
| Parakeet v2 | 2 secondes | 5.8% | 12.3% |
| Whisper Large V3 Turbo | 40 secondes | 0.2% | 1.5% |
| Apple | 9 secondes | 1.9% | 10.3% |
Évaluations supplémentaires
Des outils tels que ChatGPT, Claude et Gemini ont également été utilisés pour calculer CER et WER. Voici les résultats :
ChatGPT (o4-mini-high)
| Modèle | Temps de transcription | Taux d’erreur de caractères (CER) | Taux d’erreur de mots (WER) |
|---|---|---|---|
| Parakeet v2 | 2 secondes | 6.0% | 12.3% |
| Whisper Large V3 Turbo | 40 secondes | 0.4% | 1.4% |
| Apple | 9 secondes | 2.1% | 10.2% |
Claude (Sonnet 4)
| Modèle | Temps de transcription | Taux d’erreur de caractères (CER) | Taux d’erreur de mots (WER) |
|---|---|---|---|
| Parakeet v2 | 2 secondes | 8.4% | 11.0% |
| Whisper Large V3 Turbo | 40 secondes | 0.1% | 1.0% |
| Apple | 9 secondes | 3.5% | 8.2% |
Gemini (2.5 Pro)
| Modèle | Temps de transcription | Taux d’erreur de caractères (CER) | Taux d’erreur de mots (WER) |
|---|---|---|---|
| Parakeet v2 | 2 secondes | 7.6% | 12.3% |
| Whisper Large V3 Turbo | 40 secondes | 0.3% | 0.4% |
| Apple | 9 secondes | 3.4% | 5.3% |
Comparaison des modèles
La question qui se pose est de savoir quel modèle est supérieur. Whisper se distingue clairement par sa précision, mais son temps de traitement peut poser problème pour des projets qui nécessitent une transcription rapide.
En revanche, Parakeet est le choix idéal lorsque la vitesse est plus importante que la précision. Par exemple, pour une conférence de deux heures, un utilisateur pourrait privilégier la rapidité au détriment de la précision.
Position d’Apple
Le modèle d’Apple se positionne entre les deux en termes de vitesse et de précision. Bien qu’il ne soit pas aussi précis que Whisper, il est plus rapide que ce dernier et commence à surpasser Parakeet en termes de précision. Cela représente un bon début pour une première version.
Il convient de noter qu’Apple fonctionne de manière native, sans dépendance à des API tierces ou à des installations externes, ce qui est un atout majeur. Cela pourrait faciliter l’adoption par les développeurs et amener Apple à peaufiner son modèle à l’avenir.
Pour plus de détails sur ce sujet, vous pouvez consulter cet article sur TechCrunch.
Quelle est l’exactitude de l’API de transcription d’Apple ?
Les tests montrent que le modèle d’Apple atteint un taux d’erreur de caractère de 1,9 % et un taux d’erreur de mot de 10,3 %, ce qui le place entre Whisper et Parakeet en termes de précision.
Comment les différents modèles de transcription se comparent-ils en termes de vitesse ?
Parakeet est le plus rapide, prenant seulement 2 secondes, suivi par l’API de transcription d’Apple à 9 secondes, tandis que Whisper nécessite 40 secondes pour la transcription.
Quels outils ont été utilisés pour les tests de transcription ?
Les tests ont été réalisés en utilisant l’API de transcription d’Apple, OpenAI Whisper Large v3 Turbo, et Eleven Lab’s Scribe v1 pour comparer les performances de chaque modèle.
Quel est l’impact de la méthodologie sur les résultats des tests ?
La méthodologie joue un rôle crucial dans l’évaluation des performances, car des facteurs comme la normalisation des textes et l’ignorance de la ponctuation peuvent influencer les taux d’erreur observés.






Discussion about this post