AccueilGrandes technologiesAmazonLe plus grand modèle d'IA de synthèse vocale...

Amazon Audio et vidéo IA Intelligence artificielle

Le plus grand modèle d'IA de synthèse vocale à ce jour montre des « compétences émergentes »

Les chercheurs d’Amazon ont formé le plus grand modèle de synthèse vocale jamais créé, et ils affirment qu’il présente des qualités « émergentes » qui améliorent sa capacité à prononcer naturellement des phrases complexes. La percée pourrait être ce dont la technologie a besoin pour échapper à cette vallée complexe.

Ces modèles allaient toujours croître et s'améliorer, mais les chercheurs s'attendaient spécifiquement à constater le type d'augmentation de capacité que nous avons constaté une fois que les modèles de langage ont dépassé une certaine taille. Pour des raisons qui nous sont inconnues, une fois que les LLM dépassent un certain point, ils commencent à devenir beaucoup plus robustes et polyvalents, capables d'effectuer des tâches pour lesquelles ils n'ont pas été formés.

Cela ne veut pas dire qu'ils gagnent en sensibilité ou quelque chose comme ça, c'est juste qu'au-delà d'un certain point, leurs performances sur certaines tâches d'IA conversationnelle augmentent comme une asymptote (bâton de hockey =. L'équipe Amazon AGI (ce n'est un secret pour personne sur quoi ils tirent ) pensaient que la même chose pourrait se produire à mesure que les modèles de synthèse vocale se développent, et leurs recherches suggèrent que c'est effectivement le cas.

Le nouveau modèle s'appelle Excellent TTS adaptatif et transmissible avec des compétences émergentes (Big Adaptive Streamable TTS with Emergent skills), qu'ils ont transformé en abréviation BASE TTS. La plus grande version du modèle utilise 100.000 90 heures de discours du domaine public, dont XNUMX % en anglais et le reste en allemand, néerlandais et espagnol.

Avec 980 millions de paramètres, BASE-large apparaît comme le plus grand modèle de cette catégorie. Ils ont également formé des modèles de paramètres 400 M et 150 M basés respectivement sur 10,000 1,000 et XNUMX XNUMX heures d’audio, à des fins de comparaison ; L’idée est que, si l’un de ces modèles montre des comportements émergents mais pas un autre, vous disposez d’une plage dans laquelle ces comportements commencent à émerger.

Il s'avère que le modèle de taille moyenne a montré le saut de capacité que l'équipe recherchait, pas nécessairement dans la qualité de parole ordinaire (elle est mieux évaluée mais seulement sur quelques points), mais dans l'ensemble des compétences émergentes qu'ils ont observées et ils ont mesuré. Voici des exemples de textes, initialement en anglais, compliqués mentionné dans ses notes:

Noms composés: Les Beckham ont décidé de louer une charmante maison de vacances en pierre à la campagne.
Emotions: "Oh mon Dieu! Allons-nous vraiment aux Maldives ? C'est incroyable!" Jennie a crié, rebondissant sur la pointe de ses pieds avec une joie incontrôlable.
mots étrangers: "Monsieur. Henry, célèbre pour sa mise en place, a orchestré un repas de sept plats, chacun étant une pièce de résistance.
Paralinguistique (c'est-à-dire des mots non lisibles) : « Chut, Lucy, chut, il ne faut pas réveiller ton petit frère », murmura Tom alors qu'ils traversaient la crèche sur la pointe des pieds.
Les scores: Reçu un étrange SMS de son frère : « Urgence à la maison ; Appelez au plus vite ! Maman et papa sont inquiets... #problèmesdefamille.'
Questions: Mais la question du Brexit demeure : après toutes les épreuves et tribulations, les ministres trouveront-ils les réponses à temps ?
Complexités syntaxiques: Le film avec De Moya, récemment récompensé par le prix pour l'ensemble de sa carrière, a été un succès au box-office en 2022, malgré des critiques mitigées.

« Ces phrases sont conçues pour contenir des tâches difficiles : analyser des phrases difficiles à comprendre, mettre l'accent sur des noms composés longs, produire un discours émotionnel ou chuchoté, ou produire les phonèmes corrects pour des mots étrangers.
des mots comme « qi » ou des signes de ponctuation comme « @ », pour lesquels BASE TTS n’est pas explicitement formé », écrivent les auteurs.

Ces fonctionnalités déclenchent généralement les moteurs de synthèse vocale, qui prononcent mal, sautent des mots, utilisent des intonations étranges ou commettent d'autres erreurs. BASE TTS avait encore des problèmes, mais il faisait bien mieux que ses contemporains : des modèles comme Tortoise et VALL-E.

Les exemples de ces textes difficiles prononcés tout naturellement par le nouveau modèle ne manquent pas sur le site construit pour l'afficher. Bien sûr, ceux-ci ont été choisis par les chercheurs, donc forcément triés sur le volet, mais c'est quand même impressionnant.

Étant donné que les trois modèles BASE TTS partagent une architecture, il semble clair que la taille du modèle et l'étendue de ses données d'entraînement semblent être la cause de la capacité du modèle à gérer certaines des complexités ci-dessus. Gardez à l’esprit qu’il s’agit toujours d’un modèle et d’un processus expérimentaux, et non d’un modèle commercial. Des recherches plus approfondies devront identifier le point de basculement de la capacité émergente et la manière de former et de déployer efficacement le modèle résultant.

En particulier, ce modèle est « streamable », comme son nom l'indique, ce qui signifie qu'il n'est pas nécessaire de produire des phrases entières à la fois, mais qu'il procède à chaque instant à un débit binaire relativement faible. L’équipe a également tenté de regrouper les métadonnées vocales, telles que l’émotivité, la prosodie, etc., dans un flux distinct à faible bande passante pouvant accompagner l’audio de base.

Il semble que les modèles de synthèse vocale pourraient connaître une avancée majeure en 2024, juste à temps pour les élections ! Mais l’utilité de cette technologie ne peut être niée, notamment en matière d’accessibilité. L'équipe note qu'elle a refusé de publier la source du modèle et d'autres données en raison du risque que de mauvais acteurs en profitent. Cependant, tout le secret sera bientôt révélé.

article précédent

Comment mobiliser des capital-risqueurs généralistes pour une idée folle

suivant >>

Politiques clés en matière d'IA : libérez votre potentiel et protégez-vous des risques au travail

S'INSCRIT

Adobe affirme que son nouveau modèle d'imagerie est le meilleur à ce jour

Les nouvelles fonctionnalités Roblox AI facilitent la création d’avatars et de modèles 3D

L'IA est un problème de données et Cyera récolte jusqu'à 300 millions

Le marché oblige les fournisseurs de cloud à assouplir les frais de sortie de données

Construire une solide culture de développement de startup nécessite un ajustement constant

Goody-2, l'IA trop éthique pour discuter de quoi que ce soit

DEI : derniers défis juridiques et corporatifs

Politiques clés en matière d'IA : libérez votre potentiel et protégez-vous des risques au travail

Il n'est jamais trop tard pour commencer

Poe introduit un modèle de revenus au prix par message pour les créateurs de robots IA

TikTok permet désormais aux créateurs d'un plus grand nombre de pays de gagner de l'argent grâce à leurs effets

L’économie créative est prête pour un mouvement syndical

Soyez attentif aux coûts cachés de l’IA pour éviter de ruiner l’innovation

Cambio met des robots d'intelligence artificielle au téléphone pour négocier les dettes et parler aux clients des banques

La nouvelle « banque verte » américaine vise à allouer plus de 160.000 milliards à la technologie climatique

Tesla risque de perdre son avance sans un véhicule électrique abordable

Learning Unicorn Multiverse acquiert Searchlight axé sur l’IA

La carte de crédit Robinhood veut concurrencer Apple Card

L'IA est un problème de données et Cyera récolte jusqu'à 300 millions

Rabbit s'associe à ElevenLabs pour alimenter les commandes vocales sur votre appareil

Learning Unicorn Multiverse acquiert Searchlight axé sur l’IA

L'application Buffet s'attaque à l'épidémie de solitude en connectant les gens dans le monde réel

AirMyne exploite l'énergie géothermique pour capter directement le carbone de l'air

La chronologie qu'il faut connaître sur l'IA Chatbot

IA : résumé des principaux concepts

Comment présenter une startup aux investisseurs

Modèle d'OKR

Création d'un plan stratégique

Le plus grand modèle d'IA de synthèse vocale à ce jour montre des « compétences émergentes »

Adobe affirme que son nouveau modèle d'imagerie est le meilleur à ce jour

Les nouvelles fonctionnalités Roblox AI facilitent la création d’avatars et de modèles 3D

L'IA est un problème de données et Cyera récolte jusqu'à 300 millions

ABONNEZ-VOUS SUR TRPLANE.COM

Publier sur TRPlane.com

PLUS DE PUBLICATIONS

Dans la nouvelle normalité de VC, les créateurs gagneront

Quatre personnages du capital-risque (et comment les obtenir)

Comment présenter une startup aux investisseurs

La baisse des investissements en Amérique latine n'est pas nécessairement une mauvaise nouvelle

Ce que les investisseurs attendent de votre diapositive de résolution de problèmes