Spanish English French German Italian Portuguese
marketing social
InícioTransformaçãoInovaçãoVisão e linguagem combinadas são a chave para uma IA mais eficaz

Visão e linguagem combinadas são a chave para uma IA mais eficaz

Dependendo de qual teoria de inteligência você subscreve, alcançar a IA de “nível humano” exigirá um sistema que possa tirar proveito de várias modalidades, por exemplo: som, visão e texto, para raciocinar sobre o mundo. Quando uma imagem de um caminhão capotado e um carro da polícia em uma estrada com neve é ​​mostrada, uma IA de nível humano pode inferir que as condições perigosas da estrada causaram um acidente. Ou, rodando em um robô, quando solicitados a pegar uma lata de refrigerante na geladeira, eles navegam entre pessoas, móveis e animais de estimação para recuperar a lata e colocá-la ao alcance do solicitante.

A IA atual fica aquém. Mas novas pesquisas mostram sinais de progresso encorajador, desde robôs que podem descobrir passos para seguir comandos básicos (por exemplo, "pegue uma garrafa de água") até sistemas de produção de texto que aprendem com explicações.

Laboratório de pesquisa de IA DALL-E aprimorado OpenAI, DALL-E2, é facilmente o projeto mais impressionante emergindo das profundezas de um laboratório de pesquisa de IA. Embora o DALL-E original tenha demonstrado proeza notável na criação de imagens para corresponder a praticamente qualquer mensagem (por exemplo, "um cachorro de boina"), DALL-E2 Vai além. As imagens que produz são muito mais detalhadas e DALL-E2 pode substituir de forma inteligente uma determinada área em uma imagem, por exemplo, inserindo uma mesa em uma foto de um piso de mármore preenchido com os reflexos apropriados.

Pesquisadores de Google também detalharam um sistema de compreensão visual igualmente impressionante chamado métrica Orientado visualmente para conversão de texto em fala: VDTTS – em post publicado no blog AI da Google. O VDTTS pode gerar uma fala com som realista e sincronizada com os lábios, nada mais do que quadros de texto e vídeo da pessoa falando.

O discurso gerado por VDTTSEmbora não seja um substituto perfeito para o diálogo gravado, ainda é muito bom, com expressividade e ritmo convincentemente humanos. Google vê que um dia ele será usado em um estúdio para substituir o áudio original que pode ter sido gravado em condições de ruído.

Naturalmente, a compreensão visual é apenas um passo no caminho para uma IA mais capaz. Outro componente é o compreensão da linguagem, que fica para trás em muitos aspectos, mesmo deixando de lado as questões bem documentadas de toxicidade e viés de IA. Em um exemplo claro, um sistema de última geração de Google, Modelo de linguagem de caminhos (Palma), memorizou 40% dos dados que foram usados ​​para “treiná-lo”, de acordo com um documento, resultando em PaLM plagiando texto até avisos de direitos autorais em trechos de código.

Felizmente, DeepMind, o laboratório de inteligência artificial apoiado pela Alphabet, está entre aqueles que exploram técnicas para resolver este problema. Em um novo estudo, pesquisadores da DeepMind investigar se os sistemas de linguagem AI, que aprendem a gerar texto a partir de muitos exemplos de texto existente (pense em livros e mídias sociais), poderia se beneficiar de receber explicações desses textos. Depois de pontuar dezenas de tarefas de linguagem (por exemplo, "Responda a essas perguntas identificando se a segunda frase é uma paráfrase apropriada da primeira frase metafórica") com explicações (por exemplo, "Os olhos de David não eram literalmente adagas, é uma metáfora usada para sugerir que David estava olhando para Paul.”) e avaliando o desempenho de diferentes sistemas neles, a equipe de DeepMind descobriram que os exemplos realmente melhoram o desempenho do sistema.

O foco de DeepMind, se você passar no exame dentro da comunidade acadêmica, poderia um dia ser aplicado na robótica, formando os blocos de construção de um robô que pode entender solicitações vagas (por exemplo, "jogar fora o lixo") sem instruções passo a passo.

RELACIONADO

Deixe uma resposta

Por favor, digite seu comentário!
Por favor insira seu nome aqui

A moderação de comentários está ativada. Seu comentário pode demorar algum tempo para aparecer.

Este site usa o Akismet para reduzir o spam. Saiba como seus dados de comentário são processados.

INSCREVA-SE NO TRPLANE.COM

Publicar no TRPlane.com

Se você tiver alguma história interessante sobre transformação, TI, digital, etc. com um lugar no TRPlane.com, envie para nós e compartilharemos com toda a Comunidade.

MAIS PUBLICAÇÕES

Ativar notificações OK Sem gracias