Iníciograndes tecnologiasAmazonO maior modelo de IA de conversão de texto em fala...

Amazon Áudio e vídeo IA Inteligência artificial

O maior modelo de IA de conversão de texto em fala até agora mostra 'habilidades emergentes'

Os pesquisadores da Amazon treinaram o maior modelo de conversão de texto em fala já criado e dizem que ele exibe qualidades “emergentes” que melhoram sua capacidade de falar até mesmo frases complexas naturalmente. A inovação pode ser o que a tecnologia precisa para escapar deste vale complexo.

Esses modelos sempre iriam crescer e melhorar, mas os pesquisadores esperavam especificamente ver o tipo de salto na capacidade que vimos quando os modelos de linguagem crescessem além de um determinado tamanho. Por razões que desconhecemos, a partir de certo ponto os LLMs começam a se tornar muito mais robustos e versáteis, capazes de realizar tarefas para as quais não foram treinados.

Isso não significa que eles estão ganhando sensibilidade ou algo assim, é só que depois de um certo ponto seu desempenho em certas tarefas de IA conversacional cresce como uma assíntota (taco de hóquei =. A equipe Amazon AGI (não é segredo no que eles atiram) ) pensaram que o mesmo poderia acontecer à medida que os modelos de conversão de texto em voz crescessem, e a sua investigação sugere que este é, de facto, o caso.

O novo modelo é denominado Ótimo TTS adaptativo e transmissível com habilidades emergentes (Big Adaptive Streamable TTS com habilidades emergentes), que eles transformaram na abreviatura BASE TTS. A versão maior do modelo utiliza 100.000 horas de discurso em domínio público, 90% das quais em inglês e o restante em alemão, holandês e espanhol.

Com 980 milhões de parâmetros, o BASE-large parece ser o maior modelo nesta categoria. Eles também treinaram modelos de parâmetros de 400M e 150M com base em 10,000 e 1,000 horas de áudio respectivamente, para comparação; A ideia é que, se um desses modelos mostra comportamentos emergentes, mas outro não, você tem um intervalo onde esses comportamentos começam a surgir.

Acontece que o modelo de tamanho médio mostrou o salto nas habilidades que a equipe procurava, não necessariamente na qualidade da fala comum (ela é avaliada melhor, mas apenas por alguns pontos), mas no conjunto de habilidades emergentes que observaram e eles mediram. Aqui estão exemplos de texto, originalmente em inglês, complicado mencionado em suas notas:

Nomes compostos: Os Beckham decidiram alugar uma encantadora casa de férias construída em pedra no campo.
emoções: "Oh, meu Deus! Vamos mesmo para as Maldivas? Isso é incrível!" Jennie gritou, saltando na ponta dos pés com uma alegria incontrolável.
palavras estrangeiras: "Senhor. Henry, famoso por sua mise en place, orquestrou uma refeição de sete pratos, cada um deles uma peça de resistência.
Paralinguística (ou seja, palavras não legíveis): “Shh, Lucy, shhh, não devemos acordar seu irmão mais novo”, sussurrou Tom, enquanto eles andavam na ponta dos pés pelo berçário.
Pontuações: Recebeu uma estranha mensagem de texto do irmão: 'Emergência em casa; Ligue o mais rápido possível! Mamãe e papai estão preocupados... #problemasfamiliares.'
Interrogatório: Mas a questão sobre o Brexit permanece: depois de todas as provações e tribulações, será que os ministros encontrarão as respostas a tempo?
Complexidades sintáticas: O filme estrelado por De Moya, recentemente premiado com o prêmio pelo conjunto da obra, em 2022 foi um sucesso de bilheteria, apesar das críticas mistas.

“Essas frases são projetadas para conter tarefas desafiadoras: analisar frases difíceis de entender, colocar ênfase em substantivos compostos longos, produzir fala emocional ou sussurrada ou produzir os fonemas corretos para palavras estrangeiras.
palavras como “qi” ou pontuações como “@”, nenhuma das quais o BASE TTS é explicitamente treinado para executar”, escrevem os autores.

Esses recursos normalmente atrapalham os mecanismos de conversão de texto em fala, que pronunciam incorretamente, pulam palavras, usam entonações estranhas ou cometem algum outro erro. O BASE TTS ainda teve problemas, mas se saiu muito melhor que seus contemporâneos: modelos como Tortoise e VALL-E.

Existem muitos exemplos destes textos difíceis falados com bastante naturalidade pelo novo modelo no site criado para exibi-lo. Claro, estes foram escolhidos pelos pesquisadores, por isso são necessariamente escolhidos a dedo, mas mesmo assim é impressionante.

Como todos os três modelos BASE TTS compartilham uma arquitetura, parece claro que o tamanho do modelo e a extensão dos seus dados de treinamento parecem ser a causa da capacidade do modelo de lidar com algumas das complexidades acima. Tenha em mente que este ainda é um modelo e processo experimental, não um modelo comercial. Mais pesquisas precisarão identificar o ponto de inflexão para a capacidade emergente e como treinar e implantar o modelo resultante de forma eficiente.

Em particular, este modelo é “streamable”, como o próprio nome indica, o que significa que não precisa de produzir frases inteiras de uma só vez, mas em vez disso prossegue momento a momento a uma taxa de bits relativamente baixa. A equipe também tentou empacotar metadados de fala, como emotividade, prosódia, etc., em um fluxo separado de baixa largura de banda que pudesse acompanhar o áudio básico.

Parece que os modelos de conversão de texto em voz podem ter um momento inovador em 2024, bem a tempo para as eleições! Mas a utilidade desta tecnologia não pode ser negada, especialmente em termos de acessibilidade. A equipe observa que se recusou a publicar a fonte do modelo e outros dados devido ao risco de maus atores tirarem vantagem disso. No entanto, todo o segredo será revelado em breve.

artigo anterior

Como mobilizar capitalistas de risco generalistas para uma ideia maluca

próximo >>

Principais políticas de IA: Liberte o seu potencial e proteja-se dos riscos no trabalho

RELACIONADO

Mercado força provedores de nuvem a relaxar taxas de saída de dados

Compreendendo os robôs humanóides

Rabbit faz parceria com ElevenLabs para potencializar comandos de voz em seu dispositivo

Autoridade antitruste do Reino Unido alerta sobre o controle da Big Tech sobre GenAI

Construir uma forte cultura de desenvolvimento de startups requer ajustes constantes

Goody-2, IA muito ética para discutir qualquer coisa

DEI: últimos desafios jurídicos e societários

Principais políticas de IA: Liberte o seu potencial e proteja-se dos riscos no trabalho

Nunca é tarde para começar

Poe apresenta modelo de receita de preço por mensagem para criadores de bots de IA

O TikTok agora permite que criadores de mais países ganhem dinheiro com seus efeitos

A economia criativa está pronta para um movimento trabalhista

Preste atenção aos custos ocultos da IA para evitar arruinar a inovação

Cambio coloca robôs de inteligência artificial no telefone para negociar dívidas e conversar com clientes do banco

O novo ‘banco verde’ dos EUA pretende alocar mais de 160.000 mil milhões à tecnologia climática

Tesla corre o risco de perder liderança sem um veículo elétrico acessível

Learning unicorn Multiverse adquire Searchlight focado em IA

Cartão de crédito Robinhood quer competir com Apple Card

Rabbit faz parceria com ElevenLabs para potencializar comandos de voz em seu dispositivo

Learning unicorn Multiverse adquire Searchlight focado em IA

Buffet App aborda epidemia de solidão conectando pessoas no mundo real

AirMyne aproveita energia geotérmica para capturar carbono diretamente do ar

Apple adquire startup de IA para supervisionar componentes de fabricação

A cronologia que você precisa saber sobre o AI Chatbot

IA: resumo dos principais conceitos

Como apresentar uma startup para investidores

modelo OKR

Criação de um Plano Estratégico

O maior modelo de IA de conversão de texto em fala até agora mostra 'habilidades emergentes'

Compreendendo os robôs humanóides

Rabbit faz parceria com ElevenLabs para potencializar comandos de voz em seu dispositivo

Autoridade antitruste do Reino Unido alerta sobre o controle da Big Tech sobre GenAI

INSCREVA-SE NO TRPLANE.COM

Publicar no TRPlane.com

MAIS PUBLICAÇÕES

Financiamento cripto cai pelo quinto trimestre consecutivo e investidores continuam recuando

Espera-se que o êxodo de anunciantes afete a receita publicitária de X

Cofundador da Plaid cria banco para impulsionar aplicativos de fintech

Como a NVIDIA se tornou um player importante na robótica

Como mobilizar capitalistas de risco generalistas para uma ideia maluca