Spanish English French German Italian Portuguese
Marketing social
AccueilGrandes technologiesAmazonLe plus grand modèle d'IA de synthèse vocale...

Le plus grand modèle d'IA de synthèse vocale à ce jour montre des « compétences émergentes »

Les chercheurs d’Amazon ont formé le plus grand modèle de synthèse vocale jamais créé, et ils affirment qu’il présente des qualités « émergentes » qui améliorent sa capacité à prononcer naturellement des phrases complexes. La percée pourrait être ce dont la technologie a besoin pour échapper à cette vallée complexe.

Ces modèles allaient toujours croître et s'améliorer, mais les chercheurs s'attendaient spécifiquement à constater le type d'augmentation de capacité que nous avons constaté une fois que les modèles de langage ont dépassé une certaine taille. Pour des raisons qui nous sont inconnues, une fois que les LLM dépassent un certain point, ils commencent à devenir beaucoup plus robustes et polyvalents, capables d'effectuer des tâches pour lesquelles ils n'ont pas été formés.

Cela ne veut pas dire qu'ils gagnent en sensibilité ou quelque chose comme ça, c'est juste qu'au-delà d'un certain point, leurs performances sur certaines tâches d'IA conversationnelle augmentent comme une asymptote (bâton de hockey =. L'équipe Amazon AGI (ce n'est un secret pour personne sur quoi ils tirent ) pensaient que la même chose pourrait se produire à mesure que les modèles de synthèse vocale se développent, et leurs recherches suggèrent que c'est effectivement le cas.

Le nouveau modèle s'appelle Excellent TTS adaptatif et transmissible avec des compétences émergentes (Big Adaptive Streamable TTS with Emergent skills), qu'ils ont transformé en abréviation BASE TTS. La plus grande version du modèle utilise 100.000 90 heures de discours du domaine public, dont XNUMX % en anglais et le reste en allemand, néerlandais et espagnol.

Avec 980 millions de paramètres, BASE-large apparaît comme le plus grand modèle de cette catégorie. Ils ont également formé des modèles de paramètres 400 M et 150 M basés respectivement sur 10,000 1,000 et XNUMX XNUMX heures d’audio, à des fins de comparaison ; L’idée est que, si l’un de ces modèles montre des comportements émergents mais pas un autre, vous disposez d’une plage dans laquelle ces comportements commencent à émerger.

Il s'avère que le modèle de taille moyenne a montré le saut de capacité que l'équipe recherchait, pas nécessairement dans la qualité de parole ordinaire (elle est mieux évaluée mais seulement sur quelques points), mais dans l'ensemble des compétences émergentes qu'ils ont observées et ils ont mesuré. Voici des exemples de textes, initialement en anglais, compliqués mentionné dans ses notes:

  • Noms composés: Les Beckham ont décidé de louer une charmante maison de vacances en pierre à la campagne.
  • Emotions: "Oh mon Dieu! Allons-nous vraiment aux Maldives ? C'est incroyable!" Jennie a crié, rebondissant sur la pointe de ses pieds avec une joie incontrôlable.
  • mots étrangers: "Monsieur. Henry, célèbre pour sa mise en place, a orchestré un repas de sept plats, chacun étant une pièce de résistance.
  • Paralinguistique (c'est-à-dire des mots non lisibles) : « Chut, Lucy, chut, il ne faut pas réveiller ton petit frère », murmura Tom alors qu'ils traversaient la crèche sur la pointe des pieds.
  • Les scores: Reçu un étrange SMS de son frère : « Urgence à la maison ; Appelez au plus vite ! Maman et papa sont inquiets... #problèmesdefamille.'
  • Questions: Mais la question du Brexit demeure : après toutes les épreuves et tribulations, les ministres trouveront-ils les réponses à temps ?
  • Complexités syntaxiques: Le film avec De Moya, récemment récompensé par le prix pour l'ensemble de sa carrière, a été un succès au box-office en 2022, malgré des critiques mitigées.

« Ces phrases sont conçues pour contenir des tâches difficiles : analyser des phrases difficiles à comprendre, mettre l'accent sur des noms composés longs, produire un discours émotionnel ou chuchoté, ou produire les phonèmes corrects pour des mots étrangers.
des mots comme « qi » ou des signes de ponctuation comme « @ », pour lesquels BASE TTS n’est pas explicitement formé », écrivent les auteurs.

Ces fonctionnalités déclenchent généralement les moteurs de synthèse vocale, qui prononcent mal, sautent des mots, utilisent des intonations étranges ou commettent d'autres erreurs. BASE TTS avait encore des problèmes, mais il faisait bien mieux que ses contemporains : des modèles comme Tortoise et VALL-E.

Les exemples de ces textes difficiles prononcés tout naturellement par le nouveau modèle ne manquent pas sur le site construit pour l'afficher. Bien sûr, ceux-ci ont été choisis par les chercheurs, donc forcément triés sur le volet, mais c'est quand même impressionnant.

Étant donné que les trois modèles BASE TTS partagent une architecture, il semble clair que la taille du modèle et l'étendue de ses données d'entraînement semblent être la cause de la capacité du modèle à gérer certaines des complexités ci-dessus. Gardez à l’esprit qu’il s’agit toujours d’un modèle et d’un processus expérimentaux, et non d’un modèle commercial. Des recherches plus approfondies devront identifier le point de basculement de la capacité émergente et la manière de former et de déployer efficacement le modèle résultant.

En particulier, ce modèle est « streamable », comme son nom l'indique, ce qui signifie qu'il n'est pas nécessaire de produire des phrases entières à la fois, mais qu'il procède à chaque instant à un débit binaire relativement faible. L’équipe a également tenté de regrouper les métadonnées vocales, telles que l’émotivité, la prosodie, etc., dans un flux distinct à faible bande passante pouvant accompagner l’audio de base.

Il semble que les modèles de synthèse vocale pourraient connaître une avancée majeure en 2024, juste à temps pour les élections ! Mais l’utilité de cette technologie ne peut être niée, notamment en matière d’accessibilité. L'équipe note qu'elle a refusé de publier la source du modèle et d'autres données en raison du risque que de mauvais acteurs en profitent. Cependant, tout le secret sera bientôt révélé.

S'INSCRIT

ABONNEZ-VOUS SUR TRPLANE.COM

Publier sur TRPlane.com

Si vous avez une histoire intéressante sur la transformation, l'informatique, le numérique, etc. qui peut être trouvée sur TRPlane.com, veuillez nous l'envoyer et nous la partagerons avec toute la communauté.

PLUS DE PUBLICATIONS

Activer les notifications OK Non merci