Spanish English French German Italian Portuguese
Marketing social
AccueilLa technologieIntelligence artificielleOpenAI présente l'API Whisper pour la transcription de la parole en texte

OpenAI présente l'API Whisper pour la transcription de la parole en texte

Pour coïncider avec la sortie de l'API ChatGPT, OpenAI a publié aujourd'hui l'API Whisper, une version hébergée du modèle open source de synthèse vocale Whisper que la société a publié en septembre.

Au prix de 0.006 $ la minute, Whisper est un système de reconnaissance automatique de la parole qui, selon OpenAI, permet une transcription "robuste" dans plusieurs langues, ainsi que la traduction de ces langues en anglais. Récupérez des fichiers dans une variété de formats, notamment M4A, MP3, MP4, MPEG, MPGA, WAV et WEBM.

D'innombrables organisations ont développé des systèmes de reconnaissance vocale hautement performants, qui sont au cœur des logiciels et des services de géants de la technologie comme Google, Amazon et Meta. Mais ce qui rend Whisper différent, c'est qu'il a été formé sur 680.000 XNUMX heures de données multilingues et "multitâches" collectées sur le Web, selon le président et président d'OpenAI Greg Brockman, ce qui a conduit à une meilleure reconnaissance des accents uniques, du bruit de fond et du jargon technique.

"Nous avons publié un modèle, mais ce n'était pas vraiment suffisant pour que l'ensemble de l'écosystème de développeurs se construise autour de lui", a déclaré Brockman. « L'API Whisper est le même excellent modèle que vous pouvez obtenir à partir de l'open source, mais nous l'avons optimisé à l'extrême. C'est beaucoup, beaucoup plus rapide et extrêmement pratique."

Selon Brockman, de nombreux obstacles empêchent les entreprises d'adopter la technologie de transcription vocale. Selon Statista dans un sondage À partir de 2020, les entreprises citent les problèmes de précision, d'accent ou de reconnaissance liés au dialecte, et le coût comme les principales raisons pour lesquelles elles n'ont pas adopté de technologie comme la technologie vocale.

Cependant, Whisper a ses limites, notamment dans le domaine de la prédiction du "mot suivant". Étant donné que le système a été formé sur une grande quantité de données bruyantes, OpenAI avertit que Whisper pourrait inclure des mots dans vos transcriptions qui n'ont pas été réellement prononcés, peut-être parce qu'il essaie de prédire le mot suivant dans l'audio et de transcrire l'enregistrement audio. De plus, Whisper ne fonctionne pas aussi bien dans toutes les langues, car il souffre d'un taux d'erreur plus élevé lorsqu'il traite avec des locuteurs de langues qui ne sont pas bien représentés dans les données d'apprentissage.

Malheureusement, ce dernier élément n'a rien de nouveau dans le monde de la reconnaissance vocale. Les préjugés ont longtemps tourmenté même les meilleurs systèmes, dans un étude Les résultats de Stanford 2020 sur les systèmes d'Amazon, Apple, Google, IBM et Microsoft ont fait beaucoup moins d'erreurs (environ 19 %) avec les utilisateurs blancs qu'avec les utilisateurs noirs.

Malgré cela, OpenAI pense que les capacités de transcription de Whisper sont utilisées pour améliorer les applications, services, produits et outils existants. L'application d'apprentissage des langues basée sur l'IA, Speak, utilise déjà l'API Whisper pour alimenter un nouveau partenaire de conversation virtuel intégré à l'application.

Si OpenAI peut entrer de manière majeure sur le marché de la synthèse vocale, cela pourrait être très rentable pour la société soutenue par Microsoft. Selon le rapport, le segment pourrait valoir 5,4 milliards de dollars d'ici 2026, contre 2,2 milliards de dollars en 2021.

"Notre image est que nous voulons vraiment être cette intelligence universelle", a déclaré Brockman. "Nous voulons vraiment, de manière très flexible, être en mesure de prendre n'importe quel type de données dont vous disposez, quel que soit le type de tâche que vous souhaitez effectuer, et être un multiplicateur de force dans ces soins."

S'INSCRIT

Laisser une réponse

S'il vous plaît entrez votre commentaire!
Veuillez entrer votre nom ici

La modération des commentaires est activée. Votre commentaire peut mettre un certain temps à apparaître.

Ce site utilise Akismet pour réduire les spams. Découvrez comment vos données de commentaire sont traitées.

ABONNEZ-VOUS SUR TRPLANE.COM

Publier sur TRPlane.com

Si vous avez une histoire intéressante sur la transformation, l'informatique, le numérique, etc. qui peut être trouvée sur TRPlane.com, veuillez nous l'envoyer et nous la partagerons avec toute la communauté.

PLUS DE PUBLICATIONS

Activer les notifications OK Non merci