Spanish English French German Italian Portuguese
Social marketing
CasaBigTechAmazonIl più grande modello di intelligenza artificiale di sintesi vocale...

Il più grande modello di intelligenza artificiale di sintesi vocale che mostra le "competenze emergenti"

I ricercatori di Amazon hanno addestrato il più grande modello di sintesi vocale mai creato e affermano che presenta qualità “emergenti” che migliorano la sua capacità di pronunciare in modo naturale anche frasi complesse. La svolta potrebbe essere ciò di cui la tecnologia ha bisogno per uscire da questa valle complessa.

Questi modelli sarebbero sempre cresciuti e migliorati, ma i ricercatori si aspettavano specificamente di vedere il tipo di salto di capacità che abbiamo osservato una volta che i modelli linguistici fossero cresciuti oltre una certa dimensione. Per ragioni a noi sconosciute, una volta superato un certo punto, i LLM iniziano a diventare molto più robusti e versatili, in grado di svolgere compiti per i quali non sono stati formati.

Ciò non significa che stiano acquisendo sensibilità o qualcosa del genere, è solo che oltre un certo punto le loro prestazioni in determinati compiti di intelligenza artificiale conversazionale crescono come un asintoto (mazza da hockey =. Il team Amazon AGI (non è un segreto a cosa sparano ) pensavano che la stessa cosa potesse accadere con la crescita dei modelli di sintesi vocale e la loro ricerca suggerisce che, in effetti, è proprio così.

Il nuovo modello si chiama Ottimo TTS adattivo e trasmissibile con competenze emergenti (Big Adaptive Streamable TTS with Emergent skills), che hanno trasformato nella sigla BASE TTS. La versione più grande del modello utilizza 100.000 ore di parlato di pubblico dominio, il 90% del quale è in inglese e il resto in tedesco, olandese e spagnolo.

Con 980 milioni di parametri BASE-large risulta essere il modello più grande di questa categoria. Hanno anche addestrato modelli con parametri da 400 milioni e 150 milioni basati rispettivamente su 10,000 e 1,000 ore di audio, per confronto; L’idea è che, se uno di questi modelli mostra comportamenti emergenti ma un altro no, si dispone di un intervallo in cui tali comportamenti iniziano ad emergere.

Si scopre che il modello di medie dimensioni ha mostrato il salto di abilità che il team stava cercando, non necessariamente nella qualità del discorso ordinario (è stato rivisto meglio ma solo di un paio di punti), ma nell'insieme delle abilità emergenti osservate e analizzate. hanno misurato. Ecco alcuni esempi di testo, originariamente in inglese, complicato citato nei suoi appunti:

  • Nomi composti: I Beckham hanno deciso di affittare un'incantevole casa per le vacanze in pietra in campagna.
  • emozioni: "Dio mio! Andremo davvero alle Maldive? È incredibile!" Jennie strillò, rimbalzando sulle punte dei piedi con gioia incontrollabile.
  • parole straniere: "Signore. Henry, famoso per la sua mise en place, orchestrò un pasto di sette portate, ognuna delle quali era un pezzo forte.
  • Paralinguistica (cioè parole non leggibili): “Shh, Lucy, shhh, non dobbiamo svegliare il tuo fratellino”, sussurrò Tom, mentre attraversavano in punta di piedi la cameretta.
  • Punteggi: Ha ricevuto uno strano sms da suo fratello: 'Emergenza a casa; Chiama il prima possibile! Mamma e papà sono preoccupati...#problemifamiliari.'
  • Domande: Ma la domanda sulla Brexit rimane: dopo tutte le prove e le tribolazioni, i ministri troveranno le risposte in tempo?
  • Complessità sintattiche: Il film con protagonista De Moya, recentemente insignito del premio alla carriera, nel 2022 è stato un successo al botteghino, nonostante recensioni contrastanti.

“Queste frasi sono progettate per contenere compiti impegnativi: analizzare frasi difficili da comprendere, porre enfasi su nomi composti lunghi, produrre discorsi emotivi o sussurrati o produrre i fonemi corretti per parole straniere.
parole come "qi" o segni di punteggiatura come "@", nessuno dei quali BASE TTS è esplicitamente addestrato a eseguire", scrivono gli autori.

Queste funzionalità in genere fanno scattare i motori di sintesi vocale, che pronunciano male, saltano parole, usano intonazioni strane o commettono altri errori. BASE TTS aveva ancora problemi, ma se la cavava molto meglio dei suoi contemporanei: modelli come Tortoise e VALL-E.

Ci sono molti esempi di questi testi difficili pronunciati in modo abbastanza naturale dal nuovo modello sul sito creato per visualizzarlo. Naturalmente, questi sono stati scelti dai ricercatori, quindi sono necessariamente selezionati manualmente, ma è comunque impressionante.

Poiché tutti e tre i modelli BASE TTS condividono un'architettura, sembra chiaro che la dimensione del modello e l'estensione dei suoi dati di addestramento sembrano essere la causa della capacità del modello di gestire alcune delle complessità di cui sopra. Tieni presente che questo è ancora un modello e un processo sperimentale, non un modello commerciale. Ulteriori ricerche dovranno identificare il punto di svolta per la capacità emergente e come addestrare e implementare in modo efficiente il modello risultante.

In particolare, questo modello è “streamable”, come suggerisce il nome, il che significa che non ha bisogno di produrre intere frasi in una volta, ma procede invece momento per momento con un bitrate relativamente basso. Il team ha anche tentato di raggruppare i metadati del parlato, come l'emotività, la prosodia, ecc., in un flusso separato a bassa larghezza di banda che potesse accompagnare l'audio di base.

Sembra che i modelli di sintesi vocale possano avere un momento di svolta nel 2024, giusto in tempo per le elezioni! Ma l’utilità di questa tecnologia non può essere negata, soprattutto per quanto riguarda l’accessibilità. Il team sottolinea di aver rifiutato di pubblicare la fonte del modello e altri dati a causa del rischio che malintenzionati se ne approfittino. Tuttavia, l’intero segreto verrà presto rivelato.

IMPARENTATO

ISCRIVITI A TRPLANE.COM

Pubblica su TRPlane.com

Se hai una storia interessante su trasformazione, IT, digitale, ecc. che puoi trovare su TRPlane.com, inviacela e la condivideremo con l'intera Community.

ALTRE PUBBLICAZIONI

Attivare le notifiche OK No grazie