Triton Digital - Blogue

L'intelligence audio à grande échelle: Sounder et le monde multilingue

Rédigé par Sayali Ghodekar & Aleksandar Varga | 9 avr. 2025 13:08:09

Lorsque nous avons lancé la plateforme Audio Data Cloud (ADC) de Sounder en 2022, notre objectif était délibérément restreint : soutenir les créateurs de podcasts anglophones avec des outils de transcription, d'analyse et de monétisation de premier ordre. À l'époque, le paysage de l'IA était très différent - avant des percées open-source comme Whisper ou Llama, la plupart de notre travail consistait à créer des solutions sur mesure depuis zéro.

En mars 2024, Sounder a été acquis par Triton Digital, élargissant notre portée auprès des éditeurs et des podcasteurs du monde entier. Ce n'était pas simplement une nouvelle opportunité commerciale - c'était un tournant. Soudainement, notre pipeline devait prendre en charge des dizaines de langues, de dialectes et de formats de contenu tout en maintenant la grande précision et fiabilité que nos partenaires attendaient.

Ce n'était pas aussi simple que de traduire ce que nous avions déjà. Le langage parlé est riche en nuances culturelles, et les outils conçus pour l'anglais ne fonctionnent pas automatiquement ailleurs. Soutenir un écosystème multilingue signifiait repenser toute l'architecture – de la transcription de l'audio à la compréhension et à la catégorisation de son sens.

Cela nous a conduit à une réflexion clé : nous ne pouvions pas simplement étendre notre solution anglaise. Nous devions créer quelque chose de fondamentalement multilingue dès le départ.

Reconnaissance Automatique de la Parole (RAP)

À mesure que nous étendons nos capacités de transcription au-delà de l'anglais, nous faisons face à une question familière mais ardue : devons-nous concevoir la solution nous-mêmes ou investir dans des modèles prêts à l'emploi ? Nous avons déjà créé un système de RAP performant en anglais, entraîné sur des milliers d'heures de contenu de podcast, soigneusement transcrit et annoté par notre équipe. Mais reproduire ce niveau de personnalisation et de qualité pour des dizaines de nouvelles langues n'est pas seulement difficile, c'est aussi coûteux en ressources.

L'explosion récente des modèles de RAP open-source de haute qualité nous permet de sauter certaines étapes fondamentales. Nous avons évalué plusieurs options de premier plan, dont NeMo de NVIDIA, Wav2Vec et Whisper d'OpenAI. Parmi celles-ci, Whisper s'est révélé être le grand favori. Il est robuste, prend en charge près de 100 langues dès le départ et inclut des fonctionnalités telles que la détection de langue, la traduction et la diarisation des locuteurs. Plus important encore, son architecture basée sur les transformeurs en séquence-à-séquence en fait un excellent candidat pour l'affinement et l'optimisation.

Mais le modèle Whisper n'est pas une solution prête à l'emploi pour nos besoins. L'audio de podcast présente des défis uniques : du contenu long, rempli de faux départs, de pauses gênantes, de rires spontanés et de locuteurs qui se superposent. Le vrai défi ? Créer un système suffisamment puissant pour offrir de la précision à grande échelle, sans jamais nous ralentir.

L'Ingénierie ou le Coût ?

OpenAI propose une API Whisper rapide et de haute qualité. Lors de nos premières évaluations, elle a fourni des résultats 10 fois plus rapides et avec 20 % d'erreurs en moins par rapport à l'exécution de son implémentation open-source. Mais la rapidité a un coût élevé : nos tests sur 142 000 heures de contenu de podcast en espagnol ont montré que le pipeline interne était environ 30 fois plus rentable que l'API externe - une différence cruciale à notre échelle.

Le choix était clair : pour offrir une RAP multilingue précise et abordable à grande échelle, nous devions nous enfoncer davantage dans la voie open-source – et faire en sorte que cela fonctionne pour nous.

Optimiser !

Pour débloquer tout le potentiel de Whisper, nous nous concentrons sur son optimisation pour améliorer la vitesse, l'efficacité mémoire et la scalabilité. Nous effectuons l'optimisation des inférences en utilisant le backend Ctranslate2 et utilisons WhisperS2T pour des heuristiques améliorées, permettant la quantification et la fusion de couches pour accélérer les inférences sans sacrifier la qualité. Ces techniques accélèrent les inférences jusqu'à 3x, tout en réduisant considérablement l'utilisation de la mémoire.

Nous ajoutons également la détection d'activité vocale (VAD) pour sauter les sections sans parole et intégrons des modèles Speechbrain pour une identification robuste des langues externes. En outre, nous affinons nos stratégies de décodage pour réduire les hallucinations et les répétitions – des problèmes fréquents dans la transcription de contenu long. Des fonctionnalités telles que la taille du faisceau ajustable, la longueur maximale des tokens et le contrôle de la répétition des n-grammes ont toutes contribué à un résultat plus cohérent et précis.

Le Résultat

Tout cela a abouti à un pipeline qui nous offre le meilleur des deux mondes : une qualité de transcription multilingue presque de pointe, avec la flexibilité et l'efficacité d'un système interne. Le dernier modèle large-v3 de Whisper, combiné à nos optimisations, nous permet de prendre en charge des dizaines de langues tout en maintenant des coûts bas et des performances élevées.

Les chiffres racontent l’histoire — notre modèle montre des performances exceptionnelles, atteignant :

  • Facteur de temps réel : 99,85x

  • Efficacité des coûts : 0,011 $ par heure de contenu

  • Taux d'erreur de mots (WER) : 10,09 %

La RAP n'est pas qu'une autre couche technologique — c'est une base qui alimente tout notre écosystème de compréhension contextuelle, de sécurité de la marque et de ciblage. Nos travaux sur la transcription multilingue nous ont permis de servir des créateurs et des annonceurs à l'échelle mondiale — avec efficacité et confiance.

Traitement du Langage Naturel (NLP)

D'un point de vue technique, rendre les choses multilingues semble aujourd'hui facile. Une fois que vous avez la RAP multilingue en place, on pourrait penser que l'analyser revient simplement à le traduire et à appliquer vos outils existants en anglais. N'est-ce pas ?

Avez-vous déjà entendu un locuteur natif d'une langue non anglaise dire qu'il ne peut pas traduire une expression en anglais parce qu'il n'y a pas de manière précise de transmettre le sens ? Bien que les outils de traduction s'améliorent, il reste des barrières inhérentes en raison des différentes propriétés linguistiques et des contextes culturels, qui sont souvent impossibles à traduire. Être capable de travailler nativement dans la langue vous expose à toutes ses nuances et à l'identité culturelle de ses locuteurs — deux éléments fondamentaux lors de la création de solutions précises dans des domaines sensibles comme la sécurité de la marque, la pertinence et le ciblage contextuel.

Après une réflexion approfondie et une évaluation, nous avons conclu que construire sur des modèles entraînés nativement dans une multitude de langues, plutôt que de traduire et d'appliquer des outils existants, nous aidera à transcender ces barrières et à nous fournir les capacités nécessaires pour offrir une solution de pointe.

Dans ce but, nous avons exploré plusieurs modèles multilingues open-source qui pourraient servir de base à notre prochaine génération d'offres. Jusqu'à présent, nous avons largement utilisé des modèles BERT ou similaires à BERT, que nous avons adaptés et personnalisés à l'aide de jeux de données soigneusement sélectionnés pour offrir des produits contextuellement conscients. Étant donné notre familiarité et les outils que nous avons développés au fil des années, la voie naturelle était d'examiner les équivalents multilingues des modèles que nous utilisons déjà, tels que mBERT ou XLM-RoBERTa.

Bien que la possibilité de réutiliser la majeure partie de notre pile technologique ait été un grand avantage, le défi d'acquérir les données nécessaires pour adapter ces modèles à nos domaines dans un contexte multilingue nous a amenés à explorer d'autres options.

Le Changement de l'IA Générative

La montée rapide des modèles d'IA générative et leur capacité à effectuer des tâches complexes à travers des domaines et des langues ont attiré notre attention, car ils nous permettent de mettre à l'échelle rapidement non seulement notre support linguistique mais aussi notre ensemble de fonctionnalités.

Les investissements massifs des grandes entreprises technologiques dans l'IA générative ont orienté l'industrie — et la communauté open-source — vers cela, et nous pensons qu'elle continuera à fournir des capacités de pointe pour les années à venir.

Des modèles comme LLaMA 3.1 70B ont relativement bien performé sur la plupart des tâches que nous avons testées, bien que certains problèmes de fiabilité persistent autour du contenu sensible en raison de leurs protections de sécurité intégrées. Cependant, ils sont coûteux à exécuter à des vitesses raisonnables, nécessitant plusieurs GPU par instance et augmentant ainsi les coûts.

Des modèles plus petits, comme LLaMA 3.1 8B, sont rapides et efficaces mais ne performent pas aussi bien. Et bien qu'ils soient plus petits, ces modèles restent un ou deux ordres de grandeur plus grands que ce que nous avons utilisé jusqu'à présent.

Mettre à l'Échelle de Manière Intelligente avec l'Affinage

Pour aligner ces modèles massifs avec nos besoins produits et élever leurs performances au niveau de celles de nos modèles basés sur l'anglais, nous avons exploré des techniques récentes offrant un affinage efficace des paramètres, ce qui réduit considérablement les ressources nécessaires.

Des techniques comme LoRA et QLoRA rendent possible l'adaptation de grands modèles en utilisant des GPU relativement bon marché comme les Nvidia L4 ou L40S, rendant ainsi notre R&D plus rapide et plus rentable.

Pour illustrer l'efficacité de l'affinage sur les LLM, nous partageons les scores F1 de certains des modèles propriétaires et open-source les plus performants que nous avons évalués sur notre benchmark interne pour le ciblage contextuel (mesuré au troisième trimestre 2024).

Grâce à une sélection minutieuse des jeux de données et à l'affinage QLoRA du modèle LLaMA 3.1 8B, nous avons pu égaler le modèle propriétaire le plus performant que nous avons testé — tout en fonctionnant à une fraction du coût.

Devenir multilingue n'a pas été simplement une mise à jour technique — c'était un changement fondamental dans notre manière d'aborder l'intelligence audio chez Sounder. De la transcription de podcasts dans des dizaines de langues à la compréhension de leur contexte et de leur signification, nous avons réimaginé notre pipeline pour servir un public véritablement mondial.

En combinant des modèles open-source de pointe avec une ingénierie intelligente et un affinage spécifique au domaine, nous avons construit un système qui allie à la fois échelle et précision.

Cette transformation nous permet de soutenir les créateurs et les annonceurs dans tous les coins du monde — avec la précision, l'efficacité et la nuance culturelle qu'ils méritent.

Et ce n'est que le début.