Spanish English French German Italian Portuguese
Social marketing
CasaTecnologiaIntelligenza artificialeOpenAI introduce l'API Whisper per la trascrizione vocale in testo

OpenAI introduce l'API Whisper per la trascrizione vocale in testo

In concomitanza con il rilascio dell'API ChatGPT, OpenAI ha rilasciato oggi l'API Whisper, una versione ospitata del modello di sintesi vocale Whisper open source che la società ha rilasciato a settembre.

Con un prezzo di $ 0.006 al minuto, Whisper è un sistema di riconoscimento vocale automatico che, secondo OpenAI, consente la trascrizione "robusta" in più lingue, nonché la traduzione di tali lingue in inglese. Cattura i file in una varietà di formati, inclusi M4A, MP3, MP4, MPEG, MPGA, WAV e WEBM.

Innumerevoli organizzazioni hanno sviluppato sistemi di riconoscimento vocale altamente capaci, che sono al centro del software e dei servizi di giganti della tecnologia come Google, Amazon e Meta. Ma ciò che rende Whisper diverso è che è stato addestrato su 680.000 ore di dati multilingue e "multitasking" raccolti dal web, secondo il presidente e presidente di OpenAI Greg Brockman, il che ha portato a un migliore riconoscimento di accenti unici, rumore di fondo e gergo tecnico.

"Abbiamo rilasciato un modello, ma non era abbastanza per l'intero ecosistema di sviluppatori da costruire attorno ad esso", ha detto Brockman. “L'API Whisper è lo stesso fantastico modello che puoi ottenere dall'open source, ma l'abbiamo ottimizzato all'estremo. È molto, molto più veloce ed estremamente conveniente."

Secondo Brockman, ci sono molti ostacoli quando si tratta di aziende che adottano la tecnologia di trascrizione vocale. Secondo Statista in a sondaggio A partire dal 2020, le aziende citano l'accuratezza, i problemi di riconoscimento relativi all'accento o al dialetto e il costo come i motivi principali per cui non hanno adottato tecnologie come la tecnologia vocale.

Tuttavia, Whisper ha i suoi limiti, in particolare nell'area della previsione della "parola successiva". Poiché il sistema è stato addestrato su una grande quantità di dati rumorosi, OpenAI avverte che Whisper potrebbe includere parole nelle tue trascrizioni che non sono state effettivamente pronunciate, probabilmente perché sta cercando di prevedere la parola successiva nell'audio e trascrivere la registrazione audio. Inoltre, Whisper non funziona allo stesso modo in tutte le lingue, poiché soffre di un tasso di errore più elevato quando si tratta di parlanti di lingue che non sono ben rappresentate nei dati di addestramento.

Sfortunatamente, quest'ultima parte non è una novità nel mondo del riconoscimento vocale. I pregiudizi hanno a lungo afflitto anche i migliori sistemi, in a studio I risultati di Stanford del 2020 sui sistemi di Amazon, Apple, Google, IBM e Microsoft hanno commesso un numero significativamente inferiore di errori (circa il 19%) con utenti bianchi rispetto a utenti neri.

Nonostante ciò, OpenAI ritiene che le capacità di trascrizione di Whisper vengano utilizzate per migliorare le applicazioni, i servizi, i prodotti e gli strumenti esistenti. L'app per l'apprendimento delle lingue basata sull'intelligenza artificiale Speak utilizza già l'API Whisper per alimentare un nuovo interlocutore virtuale in-app.

Se OpenAI può entrare nel mercato della sintesi vocale in modo importante, potrebbe essere molto redditizio per l'azienda sostenuta da Microsoft. Secondo il rapporto, il segmento potrebbe valere 5,4 miliardi di dollari entro il 2026, rispetto ai 2,2 miliardi di dollari del 2021.

"La nostra immagine è che vogliamo davvero essere questa intelligenza universale", ha detto Brockman. "Vogliamo davvero, in modo molto flessibile, essere in grado di prendere qualsiasi tipo di dati tu abbia, qualunque tipo di attività tu voglia svolgere, ed essere un moltiplicatore di forza in quella cura."

IMPARENTATO

Lascia un commento

Inserisci il tuo commento!
Per favore inserisci il tuo nome qui

La moderazione dei commenti è abilitata. Il tuo commento potrebbe richiedere del tempo per apparire.

Questo sito utilizza Akismet per ridurre lo spam. Scopri come vengono elaborati i dati dei tuoi commenti.

ISCRIVITI A TRPLANE.COM

Pubblica su TRPlane.com

Se hai una storia interessante su trasformazione, IT, digitale, ecc. che puoi trovare su TRPlane.com, inviacela e la condivideremo con l'intera Community.

ALTRE PUBBLICAZIONI

Attivare le notifiche OK No grazie