Spanish English French German Italian Portuguese
marketing social
InícioTecnologiaInteligência artificialOpenAI apresenta Whisper API para transcrição de fala para texto

OpenAI apresenta Whisper API para transcrição de fala para texto

Para coincidir com o lançamento da API ChatGPT, a OpenAI lançou hoje a API Whisper, uma versão hospedada do modelo de fala para texto Whisper de código aberto que a empresa lançou em setembro.

Com um preço de US$ 0.006 por minuto, o Whisper é um sistema de reconhecimento automático de fala que, de acordo com a OpenAI, permite a transcrição "robusta" em vários idiomas, bem como a tradução desses idiomas para o inglês. Pegue arquivos em uma variedade de formatos, incluindo M4A, MP3, MP4, MPEG, MPGA, WAV e WEBM.

Inúmeras organizações desenvolveram sistemas de reconhecimento de fala altamente capazes, que estão no centro do software e serviços de gigantes da tecnologia como Google, Amazon e Meta. Mas o que torna o Whisper diferente é que ele foi treinado em 680.000 horas de dados multilíngues e "multitarefa" coletados da web, de acordo com o presidente e presidente da OpenAI, Greg Brockman, o que levou a um melhor reconhecimento de sotaques únicos, ruído de fundo e jargão técnico.

“Lançamos um modelo, mas isso não foi realmente suficiente para todo o ecossistema de desenvolvedores construir em torno dele”, disse Brockman. “A API Whisper é o mesmo modelo excelente que você pode obter de código aberto, mas nós a otimizamos ao extremo. É muito, muito mais rápido e extremamente conveniente."

Para Brockman, existem muitas barreiras quando se trata de empresas que adotam a tecnologia de transcrição de voz. De acordo com Statista em um votação A partir de 2020, as empresas citam problemas de precisão, sotaque ou reconhecimento relacionado ao dialeto e custo como os principais motivos pelos quais não adotaram tecnologias como a tecnologia de voz.

No entanto, o Whisper tem suas limitações, principalmente na área de previsão da "próxima palavra". Como o sistema foi treinado em uma grande quantidade de dados ruidosos, o OpenAI avisa que o Whisper pode incluir palavras em suas transcrições que não foram realmente faladas, possivelmente porque está tentando prever a próxima palavra em áudio e transcrever a gravação de áudio. Além disso, o Whisper não funciona igualmente bem em todos os idiomas, pois sofre com uma taxa de erro maior ao lidar com falantes de idiomas que não estão bem representados nos dados de treinamento.

Infelizmente, essa última parte não é novidade no mundo do reconhecimento de fala. Os preconceitos há muito atormentam até mesmo os melhores sistemas, em um estudo Os resultados de Stanford de 2020 em sistemas da Amazon, Apple, Google, IBM e Microsoft cometeram significativamente menos erros (cerca de 19%) com usuários brancos do que com usuários negros.

Apesar disso, a OpenAI acredita que os recursos de transcrição do Whisper são usados ​​para melhorar aplicativos, serviços, produtos e ferramentas existentes. O aplicativo de aprendizado de idiomas com inteligência artificial Speak já está usando a API Whisper para capacitar um novo parceiro de fala virtual no aplicativo.

Se o OpenAI puder entrar no mercado de fala para texto de uma maneira importante, pode ser bastante lucrativo para a empresa apoiada pela Microsoft. De acordo com o relatório, o segmento pode valer US$ 5,4 bilhões até 2026, contra US$ 2,2 bilhões em 2021.

"Nossa imagem é que realmente queremos ser essa inteligência universal", disse Brockman. “Nós realmente queremos, com muita flexibilidade, ser capazes de pegar qualquer tipo de dados que você tenha, qualquer tipo de tarefa que você queira fazer e ser um multiplicador de força nesse cuidado.”

RELACIONADO

Deixe uma resposta

Por favor, digite seu comentário!
Por favor insira seu nome aqui

A moderação de comentários está ativada. Seu comentário pode demorar algum tempo para aparecer.

Este site usa o Akismet para reduzir o spam. Saiba como seus dados de comentário são processados.

INSCREVA-SE NO TRPLANE.COM

Publicar no TRPlane.com

Se você tiver alguma história interessante sobre transformação, TI, digital, etc. com um lugar no TRPlane.com, envie para nós e compartilharemos com toda a Comunidade.

MAIS PUBLICAÇÕES

Ativar notificações OK Sem gracias