CasaBigTechAmazonIl più grande modello di intelligenza artificiale di sintesi vocale...

Amazon Audio e Video IA Intelligenza artificiale

Il più grande modello di intelligenza artificiale di sintesi vocale che mostra le "competenze emergenti"

I ricercatori di Amazon hanno addestrato il più grande modello di sintesi vocale mai creato e affermano che presenta qualità “emergenti” che migliorano la sua capacità di pronunciare in modo naturale anche frasi complesse. La svolta potrebbe essere ciò di cui la tecnologia ha bisogno per uscire da questa valle complessa.

Questi modelli sarebbero sempre cresciuti e migliorati, ma i ricercatori si aspettavano specificamente di vedere il tipo di salto di capacità che abbiamo osservato una volta che i modelli linguistici fossero cresciuti oltre una certa dimensione. Per ragioni a noi sconosciute, una volta superato un certo punto, i LLM iniziano a diventare molto più robusti e versatili, in grado di svolgere compiti per i quali non sono stati formati.

Ciò non significa che stiano acquisendo sensibilità o qualcosa del genere, è solo che oltre un certo punto le loro prestazioni in determinati compiti di intelligenza artificiale conversazionale crescono come un asintoto (mazza da hockey =. Il team Amazon AGI (non è un segreto a cosa sparano ) pensavano che la stessa cosa potesse accadere con la crescita dei modelli di sintesi vocale e la loro ricerca suggerisce che, in effetti, è proprio così.

Il nuovo modello si chiama Ottimo TTS adattivo e trasmissibile con competenze emergenti (Big Adaptive Streamable TTS with Emergent skills), che hanno trasformato nella sigla BASE TTS. La versione più grande del modello utilizza 100.000 ore di parlato di pubblico dominio, il 90% del quale è in inglese e il resto in tedesco, olandese e spagnolo.

Con 980 milioni di parametri BASE-large risulta essere il modello più grande di questa categoria. Hanno anche addestrato modelli con parametri da 400 milioni e 150 milioni basati rispettivamente su 10,000 e 1,000 ore di audio, per confronto; L’idea è che, se uno di questi modelli mostra comportamenti emergenti ma un altro no, si dispone di un intervallo in cui tali comportamenti iniziano ad emergere.

Si scopre che il modello di medie dimensioni ha mostrato il salto di abilità che il team stava cercando, non necessariamente nella qualità del discorso ordinario (è stato rivisto meglio ma solo di un paio di punti), ma nell'insieme delle abilità emergenti osservate e analizzate. hanno misurato. Ecco alcuni esempi di testo, originariamente in inglese, complicato citato nei suoi appunti:

Nomi composti: I Beckham hanno deciso di affittare un'incantevole casa per le vacanze in pietra in campagna.
emozioni: "Dio mio! Andremo davvero alle Maldive? È incredibile!" Jennie strillò, rimbalzando sulle punte dei piedi con gioia incontrollabile.
parole straniere: "Signore. Henry, famoso per la sua mise en place, orchestrò un pasto di sette portate, ognuna delle quali era un pezzo forte.
Paralinguistica (cioè parole non leggibili): “Shh, Lucy, shhh, non dobbiamo svegliare il tuo fratellino”, sussurrò Tom, mentre attraversavano in punta di piedi la cameretta.
Punteggi: Ha ricevuto uno strano sms da suo fratello: 'Emergenza a casa; Chiama il prima possibile! Mamma e papà sono preoccupati...#problemifamiliari.'
Domande: Ma la domanda sulla Brexit rimane: dopo tutte le prove e le tribolazioni, i ministri troveranno le risposte in tempo?
Complessità sintattiche: Il film con protagonista De Moya, recentemente insignito del premio alla carriera, nel 2022 è stato un successo al botteghino, nonostante recensioni contrastanti.

“Queste frasi sono progettate per contenere compiti impegnativi: analizzare frasi difficili da comprendere, porre enfasi su nomi composti lunghi, produrre discorsi emotivi o sussurrati o produrre i fonemi corretti per parole straniere.
parole come "qi" o segni di punteggiatura come "@", nessuno dei quali BASE TTS è esplicitamente addestrato a eseguire", scrivono gli autori.

Queste funzionalità in genere fanno scattare i motori di sintesi vocale, che pronunciano male, saltano parole, usano intonazioni strane o commettono altri errori. BASE TTS aveva ancora problemi, ma se la cavava molto meglio dei suoi contemporanei: modelli come Tortoise e VALL-E.

Ci sono molti esempi di questi testi difficili pronunciati in modo abbastanza naturale dal nuovo modello sul sito creato per visualizzarlo. Naturalmente, questi sono stati scelti dai ricercatori, quindi sono necessariamente selezionati manualmente, ma è comunque impressionante.

Poiché tutti e tre i modelli BASE TTS condividono un'architettura, sembra chiaro che la dimensione del modello e l'estensione dei suoi dati di addestramento sembrano essere la causa della capacità del modello di gestire alcune delle complessità di cui sopra. Tieni presente che questo è ancora un modello e un processo sperimentale, non un modello commerciale. Ulteriori ricerche dovranno identificare il punto di svolta per la capacità emergente e come addestrare e implementare in modo efficiente il modello risultante.

In particolare, questo modello è “streamable”, come suggerisce il nome, il che significa che non ha bisogno di produrre intere frasi in una volta, ma procede invece momento per momento con un bitrate relativamente basso. Il team ha anche tentato di raggruppare i metadati del parlato, come l'emotività, la prosodia, ecc., in un flusso separato a bassa larghezza di banda che potesse accompagnare l'audio di base.

Sembra che i modelli di sintesi vocale possano avere un momento di svolta nel 2024, giusto in tempo per le elezioni! Ma l’utilità di questa tecnologia non può essere negata, soprattutto per quanto riguarda l’accessibilità. Il team sottolinea di aver rifiutato di pubblicare la fonte del modello e altri dati a causa del rischio che malintenzionati se ne approfittino. Tuttavia, l’intero segreto verrà presto rivelato.

articolo precedente

Come mobilitare i venture capitalist generalisti per un'idea folle

avanti >>

Politiche chiave sull'intelligenza artificiale: libera il tuo potenziale e proteggiti dai rischi sul lavoro

IMPARENTATO

Adobe sta lavorando anche su video generativi

Gli investitori sono sempre più diffidenti nei confronti dell’intelligenza artificiale

Meta presenta il suo nuovo chip AI personalizzato

TTC: Stati Uniti e UE stabiliscono collegamenti per la sicurezza e i rischi dell’IA

Costruire una forte cultura di sviluppo delle startup richiede un aggiustamento costante

Goody-2, l'IA è troppo etica per discutere di qualsiasi cosa

DEI: le ultime sfide giuridiche e aziendali

Politiche chiave sull'intelligenza artificiale: libera il tuo potenziale e proteggiti dai rischi sul lavoro

Non è mai troppo tardi per iniziare

TikTok ora consente ai creatori di più paesi di guadagnare denaro dai loro effetti

L’economia creativa è pronta per un movimento operaio

Prestare attenzione ai costi nascosti dell’intelligenza artificiale per evitare di rovinare l’innovazione

Cambio mette al telefono robot di intelligenza artificiale per negoziare debiti e parlare con i clienti delle banche

È ora di mettere alla prova l'economia dell'abbonamento e il suo valore per i clienti

AirMyne sfrutta l'energia geotermica per catturare direttamente il carbonio dall'aria

Astranis presenta i satelliti Omega 'MicroGEO' per trasmettere la banda larga dedicata dall'orbita alta

La startup Griffin "Banking as a Service" ottiene la licenza bancaria completa

Faddom mappa l'infrastruttura IT delle aziende in qualsiasi luogo

AirMyne sfrutta l'energia geotermica per catturare direttamente il carbonio dall'aria

Apple acquisisce una startup AI per supervisionare i componenti di produzione

Meta presenta il suo nuovo chip AI personalizzato

Astranis presenta i satelliti Omega 'MicroGEO' per trasmettere la banda larga dedicata dall'orbita alta

I rendimenti degli investimenti SaaS aziendali, ma non dove ti aspetteresti

La cronologia che devi conoscere sul Chatbot AI

AI: sintesi dei concetti principali

Come presentare una startup agli investitori

Modello OKR

Creazione di un piano strategico

Il più grande modello di intelligenza artificiale di sintesi vocale che mostra le "competenze emergenti"

Adobe sta lavorando anche su video generativi

Gli investitori sono sempre più diffidenti nei confronti dell’intelligenza artificiale

Meta presenta il suo nuovo chip AI personalizzato

ISCRIVITI A TRPLANE.COM

Pubblica su TRPlane.com

ALTRE PUBBLICAZIONI

Revolut rivalutato durante il ripensamento fintech

Finanziamento collettivo

Conservazione dei talenti: strategie di compensazione flessibili

I risultati di Klarna includono un mese redditizio poiché GMV continua a crescere

messa a fuoco