Spanish English French German Italian Portuguese
Social marketing
CasaIAL'Aura di Deepgram dà voce agli agenti dell'IA

L'Aura di Deepgram dà voce agli agenti dell'IA

Deepgram si è affermata come una delle startup di riferimento per il riconoscimento vocale. Oggi, la società ben finanziata ha annunciato il lancio di aura, la tua nuova API di sintesi vocale in tempo reale. Aura combina modelli vocali altamente realistici con un'API a bassa latenza per consentire agli sviluppatori di creare agenti AI conversazionali in tempo reale. Supportati da modelli linguistici di grandi dimensioni (LLM), questi agenti possono quindi sostituire gli agenti del servizio clienti nei call center e in altre situazioni a contatto con i clienti.

Come ha affermato il co-fondatore e amministratore delegato di Deepgram, Scott Stephenson, da tempo è possibile accedere a modelli vocali eccellenti, ma erano costosi e richiedevano molto tempo di calcolo ed elaborazione. Nel frattempo, i modelli a bassa latenza tendono a sembrare robotici. Aura di Deepgram combina modelli vocali simili a quelli umani che si riproducono in modo estremamente rapido (in genere in meno di mezzo secondo) e, come ha ripetutamente sottolineato Stephenson, lo fa a un prezzo basso.

"Ora tutti dicono: 'Ehi, abbiamo bisogno di robot con intelligenza artificiale vocale in tempo reale in grado di percepire ciò che viene detto, di capirlo, di generare una risposta e di comunicarlo con la voce'", ha affermato. A suo avviso, per rendere un prodotto come questo utile per le aziende, è necessaria una combinazione di precisione (che ha descritto come in gioco per un servizio come questo), bassa latenza e costi accettabili, soprattutto se combinato con l'accesso relativamente elevato ai LLM. .

Deepgram sostiene che il prezzo di Aura attualmente batte praticamente tutti i suoi concorrenti a 0,015 dollari per 1.000 caratteri. Non è poi così lontano dal prezzo che Google offre per questo Voci WaveNet a 0,016 per 1.000 caratteri e Polly di Amazon, le voci di Neurale voci allo stesso prezzo di $ 0,016 per 1.000 caratteri, ma ovviamente è più economico. Il livello più alto di Amazon è significativamente più costoso.

“Devi raggiungere un prezzo davvero buono in tutti i segmenti, ma devi anche avere latenze e velocità sorprendenti, nonché una precisione sorprendente. Quindi è una cosa davvero difficile da fare", ha detto Stephenson riferendosi all'approccio generale di Deepgram allo sviluppo del suo prodotto. "Ma questo è ciò su cui ci siamo concentrati fin dall'inizio ed è per questo che abbiamo costruito per quattro anni prima di lanciare qualsiasi cosa, perché stavamo costruendo l'infrastruttura sottostante per realizzarlo."

Aura offre in giro una dozzina modelli vocali, tutti formati da un set di dati creato da Deepgram insieme ai doppiatori. Il modello Aura, come tutti gli altri modelli dell'azienda, è stato addestrato internamente. Questo è quello che sembra:

Dopo aver testato il modello, anche se a volte ci sono delle pronunce strane, la velocità è davvero ciò che risalta, oltre al modello di sintesi vocale di alta qualità esistente di Deepgram. Per evidenziare la velocità con cui genera risposte, Deepgram esamina quanto tempo ha impiegato il modello per iniziare a parlare (in genere meno di 0,3 secondi) e quanto tempo ha impiegato LLM per completare la generazione della sua risposta (che in genere è poco meno di un secondo) .

IMPARENTATO

ISCRIVITI A TRPLANE.COM

Pubblica su TRPlane.com

Se hai una storia interessante su trasformazione, IT, digitale, ecc. che puoi trovare su TRPlane.com, inviacela e la condivideremo con l'intera Community.

ALTRE PUBBLICAZIONI

Attivare le notifiche OK No grazie