Spanish English French German Italian Portuguese
marketing social
Iníciograndes tecnologiasAmazonO maior modelo de IA de conversão de texto em fala...

O maior modelo de IA de conversão de texto em fala até agora mostra 'habilidades emergentes'

Os pesquisadores da Amazon treinaram o maior modelo de conversão de texto em fala já criado e dizem que ele exibe qualidades “emergentes” que melhoram sua capacidade de falar até mesmo frases complexas naturalmente. A inovação pode ser o que a tecnologia precisa para escapar deste vale complexo.

Esses modelos sempre iriam crescer e melhorar, mas os pesquisadores esperavam especificamente ver o tipo de salto na capacidade que vimos quando os modelos de linguagem crescessem além de um determinado tamanho. Por razões que desconhecemos, a partir de certo ponto os LLMs começam a se tornar muito mais robustos e versáteis, capazes de realizar tarefas para as quais não foram treinados.

Isso não significa que eles estão ganhando sensibilidade ou algo assim, é só que depois de um certo ponto seu desempenho em certas tarefas de IA conversacional cresce como uma assíntota (taco de hóquei =. A equipe Amazon AGI (não é segredo no que eles atiram) ) pensaram que o mesmo poderia acontecer à medida que os modelos de conversão de texto em voz crescessem, e a sua investigação sugere que este é, de facto, o caso.

O novo modelo é denominado Ótimo TTS adaptativo e transmissível com habilidades emergentes (Big Adaptive Streamable TTS com habilidades emergentes), que eles transformaram na abreviatura BASE TTS. A versão maior do modelo utiliza 100.000 horas de discurso em domínio público, 90% das quais em inglês e o restante em alemão, holandês e espanhol.

Com 980 milhões de parâmetros, o BASE-large parece ser o maior modelo nesta categoria. Eles também treinaram modelos de parâmetros de 400M e 150M com base em 10,000 e 1,000 horas de áudio respectivamente, para comparação; A ideia é que, se um desses modelos mostra comportamentos emergentes, mas outro não, você tem um intervalo onde esses comportamentos começam a surgir.

Acontece que o modelo de tamanho médio mostrou o salto nas habilidades que a equipe procurava, não necessariamente na qualidade da fala comum (ela é avaliada melhor, mas apenas por alguns pontos), mas no conjunto de habilidades emergentes que observaram e eles mediram. Aqui estão exemplos de texto, originalmente em inglês, complicado mencionado em suas notas:

  • Nomes compostos: Os Beckham decidiram alugar uma encantadora casa de férias construída em pedra no campo.
  • emoções: "Oh, meu Deus! Vamos mesmo para as Maldivas? Isso é incrível!" Jennie gritou, saltando na ponta dos pés com uma alegria incontrolável.
  • palavras estrangeiras: "Senhor. Henry, famoso por sua mise en place, orquestrou uma refeição de sete pratos, cada um deles uma peça de resistência.
  • Paralinguística (ou seja, palavras não legíveis): “Shh, Lucy, shhh, não devemos acordar seu irmão mais novo”, sussurrou Tom, enquanto eles andavam na ponta dos pés pelo berçário.
  • Pontuações: Recebeu uma estranha mensagem de texto do irmão: 'Emergência em casa; Ligue o mais rápido possível! Mamãe e papai estão preocupados... #problemasfamiliares.'
  • Interrogatório: Mas a questão sobre o Brexit permanece: depois de todas as provações e tribulações, será que os ministros encontrarão as respostas a tempo?
  • Complexidades sintáticas: O filme estrelado por De Moya, recentemente premiado com o prêmio pelo conjunto da obra, em 2022 foi um sucesso de bilheteria, apesar das críticas mistas.

“Essas frases são projetadas para conter tarefas desafiadoras: analisar frases difíceis de entender, colocar ênfase em substantivos compostos longos, produzir fala emocional ou sussurrada ou produzir os fonemas corretos para palavras estrangeiras.
palavras como “qi” ou pontuações como “@”, nenhuma das quais o BASE TTS é explicitamente treinado para executar”, escrevem os autores.

Esses recursos normalmente atrapalham os mecanismos de conversão de texto em fala, que pronunciam incorretamente, pulam palavras, usam entonações estranhas ou cometem algum outro erro. O BASE TTS ainda teve problemas, mas se saiu muito melhor que seus contemporâneos: modelos como Tortoise e VALL-E.

Existem muitos exemplos destes textos difíceis falados com bastante naturalidade pelo novo modelo no site criado para exibi-lo. Claro, estes foram escolhidos pelos pesquisadores, por isso são necessariamente escolhidos a dedo, mas mesmo assim é impressionante.

Como todos os três modelos BASE TTS compartilham uma arquitetura, parece claro que o tamanho do modelo e a extensão dos seus dados de treinamento parecem ser a causa da capacidade do modelo de lidar com algumas das complexidades acima. Tenha em mente que este ainda é um modelo e processo experimental, não um modelo comercial. Mais pesquisas precisarão identificar o ponto de inflexão para a capacidade emergente e como treinar e implantar o modelo resultante de forma eficiente.

Em particular, este modelo é “streamable”, como o próprio nome indica, o que significa que não precisa de produzir frases inteiras de uma só vez, mas em vez disso prossegue momento a momento a uma taxa de bits relativamente baixa. A equipe também tentou empacotar metadados de fala, como emotividade, prosódia, etc., em um fluxo separado de baixa largura de banda que pudesse acompanhar o áudio básico.

Parece que os modelos de conversão de texto em voz podem ter um momento inovador em 2024, bem a tempo para as eleições! Mas a utilidade desta tecnologia não pode ser negada, especialmente em termos de acessibilidade. A equipe observa que se recusou a publicar a fonte do modelo e outros dados devido ao risco de maus atores tirarem vantagem disso. No entanto, todo o segredo será revelado em breve.

RELACIONADO

INSCREVA-SE NO TRPLANE.COM

Publicar no TRPlane.com

Se você tiver alguma história interessante sobre transformação, TI, digital, etc. com um lugar no TRPlane.com, envie para nós e compartilharemos com toda a Comunidade.

MAIS PUBLICAÇÕES

Ativar notificações OK Sem gracias