Google a récemment dévoilé des innovations majeures avec le septième génération d’Ironwood TPU, révolutionnant l’intelligence artificielle, et Lyria, son système de texte en musique. Ces avancées promettent d’améliorer considérablement la création musicale et l’optimisation de la lisibilité, marquant une étape significative dans la technologie moderne.

Ironwood : Le TPU de 7ème génération
Lors de l’événement Cloud Next 2025, Google a dévoilé l’Ironwood, son unité de traitement de tenseurs (TPU) de 7ème génération, ainsi que ses modèles génératifs les plus récents. L’Ironwood TPU se présente comme le « plus performant et évolutif » des accélérateurs d’IA personnalisés de Google à ce jour, tout en étant économe en énergie et le premier conçu spécifiquement pour l’inférence.
Ironwood marque un tournant significatif dans le développement de l’IA et de l’infrastructure qui propulse son avancement. Il s’agit d’un passage des modèles d’IA réactifs fournissant des informations en temps réel pour être interprétées, vers des modèles qui génèrent proactivement des aperçus et des interprétations.
Ce modèle est conçu pour gérer les exigences des modèles de réflexion, tels que les grands modèles de langage (LLMs), les mélanges d’experts (MoEs) et les tâches de raisonnement avancées, nécessitant un traitement parallèle massif et un accès efficace à la mémoire. Cela se fait en minimisant le mouvement des données et la latence sur la puce tout en exécutant de vastes manipulations de tenseurs.
À la pointe, les exigences de calcul des modèles de réflexion dépassent largement la capacité de n’importe quelle puce unique. Nous avons conçu les TPU Ironwood avec un réseau ICI à faible latence et à large bande passante pour soutenir une communication coordonnée et synchrone à l’échelle complète du pod TPU.
Les clients de Google Cloud peuvent accéder à une configuration de 256 ou 9 216 puces, chaque puce offrant un pic de calcul de 4 614 TFLOPs. Le modèle de 9 216 puces représente un pod total de 42,5 Exaflops, soit « plus de 24 fois la puissance de calcul du plus grand superordinateur au monde – El Capitan – qui offre seulement 1,7 Exaflops par pod. »
Ironwood offre des performances par watt qui sont deux fois supérieures à celles de la 6ème génération Trillium annoncée en 2024, ainsi que 192 Go de mémoire à large bande passante par puce, soit six fois plus que le Trillium.
Modèle Gemini 2.5 Flash
Le modèle Gemini 2.5 Flash de Google se concentre sur la faible latence et les coûts, et sera bientôt disponible sur Vertex AI. Ce modèle présente un raisonnement dynamique et contrôlable.
Le modèle ajuste automatiquement le temps de traitement en fonction de la complexité de la requête, permettant des réponses plus rapides pour des demandes simples. Vous gagnez également un contrôle granulaire sur ce budget, ce qui vous permet de régler explicitement l’équilibre entre la vitesse, la précision et le coût selon vos besoins spécifiques.
Des cas d’utilisation à fort volume comme le service client et le traitement d’informations en temps réel bénéficient particulièrement de cette flexibilité.
Modèles d’IA générative
Google met désormais à la disposition de ses clients d’entreprise le modèle Lyria de génération de musique à partir de texte en avant-première sur Vertex AI. Ce modèle peut produire de l’audio de haute fidélité dans une variété de genres. Les entreprises peuvent l’utiliser pour créer rapidement des bandes sonores qui correspondent à l’« identité unique d’une marque ». Une autre application concerne la production vidéo et le podcasting :
Lyria élimine ces obstacles, permettant de générer des morceaux de musique personnalisés en quelques minutes, s’alignant directement avec l’humeur, le rythme et la narration de votre contenu.
Un exemple de prompt utilisé pour générer une pièce musicale pourrait être : « Créez un morceau de bebop énergique. Priorisez des solos de saxophone et de trompette éblouissants, échangeant des phrases complexes à une vitesse fulgurante. Le piano devrait fournir un accompagnement percussif et harmonique, avec une basse marquée et des batteries rapides insufflant une énergie frénétique. Le ton doit être exaltant et intense, capturant l’essence d’un club de jazz enfumé à la fin de la nuit, mettant en valeur la virtuosité et l’improvisation. L’auditeur ne devrait pas pouvoir rester immobile. »
Parallèlement, Veo 2 reçoit des capacités de montage qui permettent de modifier les séquences existantes :
- Inpainting : Réalisez des retouches professionnelles sans retouche manuelle, en supprimant des images d’arrière-plan indésirables, des logos ou d’autres distractions, les faisant disparaître de manière fluide et parfaite cadre par cadre.
- Outpainting : Étendez le cadre d’un enregistrement vidéo existant, transformant un vidéo traditionnelle en formats optimisés pour le web et les plateformes mobiles.
Améliorations d’Imagen 3 et de Chirp 3
Le système Imagen 3 bénéficie d’améliorations significatives en matière d’inpainting pour reconstruire des portions manquantes ou endommagées d’une image, ainsi que de suppression d’objets. De son côté, Chirp 3, le modèle de compréhension et de génération audio de Google, propose des « voix HD » avec un discours naturel et réaliste dans plus de 35 langues, avec huit options de locuteurs.
Une nouvelle fonctionnalité permet à Chirp 3 de « générer des voix personnalisées réalistes à partir de 10 secondes d’entrée audio. »
Cela permet aux entreprises de personnaliser leurs centres d’appels, de développer du contenu accessible et d’établir des voix de marque uniques, tout en maintenant une identité de marque cohérente.
Pour garantir une utilisation responsable, la fonction de voix personnalisée instantanée inclut des fonctionnalités de sécurité intégrées, et notre processus d’autorisation implique une diligence rigoureuse pour vérifier les autorisations d’utilisation des voix.
Mesures de sécurité avec SynthID
Du côté de la sécurité, « SynthID de DeepMind intègre des marques invisibles dans chaque image, vidéo et cadre audio produits par Imagen, Veo et Lyria. »
Pour un aperçu approfondi des dernières innovations de Google, consultez également [Google Cloud](https://cloud.google.com).
Quelle est la capacité de traitement d’un seul TPU Ironwood ?
Chaque TPU Ironwood offre un pic de calcul de 4,614 TFLOPs.
Quelles sont les applications principales des modèles AI génératifs de Google ?
Les modèles AI génératifs de Google, comme Lyria, peuvent être utilisés pour créer des pistes musicales sur mesure pour des marques et pour la production vidéo et de podcasts.
Comment Ironwood améliore-t-il l’efficacité énergétique par rapport à Trillium ?
Ironwood offre une performance par watt qui est 2x supérieure à celle de Trillium de 6e génération, tout en proposant 192 Go de mémoire à large bande par puce.
Quelles fonctionnalités sont incluses dans le modèle Chirp 3 ?
Chirp 3 propose des voix HD avec un discours naturel et réaliste en plus de 35 langues et inclut des fonctionnalités pour générer des voix personnalisées à partir de 10 secondes d’enregistrement audio.






Discussion about this post