Dependendo de qual teoria de inteligência você subscreve, alcançar a IA de “nível humano” exigirá um sistema que possa tirar proveito de várias modalidades, por exemplo: som, visão e texto, para raciocinar sobre o mundo. Quando uma imagem de um caminhão capotado e um carro da polícia em uma estrada com neve é mostrada, uma IA de nível humano pode inferir que as condições perigosas da estrada causaram um acidente. Ou, rodando em um robô, quando solicitados a pegar uma lata de refrigerante na geladeira, eles navegam entre pessoas, móveis e animais de estimação para recuperar a lata e colocá-la ao alcance do solicitante.
A IA atual fica aquém. Mas novas pesquisas mostram sinais de progresso encorajador, desde robôs que podem descobrir passos para seguir comandos básicos (por exemplo, "pegue uma garrafa de água") até sistemas de produção de texto que aprendem com explicações.
Laboratório de pesquisa de IA DALL-E aprimorado OpenAI, DALL-E2, é facilmente o projeto mais impressionante emergindo das profundezas de um laboratório de pesquisa de IA. Embora o DALL-E original tenha demonstrado proeza notável na criação de imagens para corresponder a praticamente qualquer mensagem (por exemplo, "um cachorro de boina"), DALL-E2 Vai além. As imagens que produz são muito mais detalhadas e DALL-E2 pode substituir de forma inteligente uma determinada área em uma imagem, por exemplo, inserindo uma mesa em uma foto de um piso de mármore preenchido com os reflexos apropriados.
Pesquisadores de Google também detalharam um sistema de compreensão visual igualmente impressionante chamado métrica Orientado visualmente para conversão de texto em fala: VDTTS – em post publicado no blog AI da Google. O VDTTS pode gerar uma fala com som realista e sincronizada com os lábios, nada mais do que quadros de texto e vídeo da pessoa falando.
O discurso gerado por VDTTSEmbora não seja um substituto perfeito para o diálogo gravado, ainda é muito bom, com expressividade e ritmo convincentemente humanos. Google vê que um dia ele será usado em um estúdio para substituir o áudio original que pode ter sido gravado em condições de ruído.
Naturalmente, a compreensão visual é apenas um passo no caminho para uma IA mais capaz. Outro componente é o compreensão da linguagem, que fica para trás em muitos aspectos, mesmo deixando de lado as questões bem documentadas de toxicidade e viés de IA. Em um exemplo claro, um sistema de última geração de Google, Modelo de linguagem de caminhos (Palma), memorizou 40% dos dados que foram usados para “treiná-lo”, de acordo com um documento, resultando em PaLM plagiando texto até avisos de direitos autorais em trechos de código.
Felizmente, DeepMind, o laboratório de inteligência artificial apoiado pela Alphabet, está entre aqueles que exploram técnicas para resolver este problema. Em um novo estudo, pesquisadores da DeepMind investigar se os sistemas de linguagem AI, que aprendem a gerar texto a partir de muitos exemplos de texto existente (pense em livros e mídias sociais), poderia se beneficiar de receber explicações desses textos. Depois de pontuar dezenas de tarefas de linguagem (por exemplo, "Responda a essas perguntas identificando se a segunda frase é uma paráfrase apropriada da primeira frase metafórica") com explicações (por exemplo, "Os olhos de David não eram literalmente adagas, é uma metáfora usada para sugerir que David estava olhando para Paul.”) e avaliando o desempenho de diferentes sistemas neles, a equipe de DeepMind descobriram que os exemplos realmente melhoram o desempenho do sistema.
O foco de DeepMind, se você passar no exame dentro da comunidade acadêmica, poderia um dia ser aplicado na robótica, formando os blocos de construção de um robô que pode entender solicitações vagas (por exemplo, "jogar fora o lixo") sem instruções passo a passo.