InícioIAGoogle admite que perdeu o controle da IA de geração de imagens

Google admite que perdeu o controle da IA de geração de imagens

O Google se desculpou (ou quase se desculpou) por outro erro embaraçoso de IA esta semana, um modelo de geração de imagens que injetou diversidade nas imagens com um desrespeito ridículo pelo contexto histórico. Embora o problema subjacente seja perfeitamente compreensível, o Google culpa o modelo por “se tornar muito sensível”. O modelo não se fez sozinho, pessoal do Google.

O sistema de IA em questão é o Gemini, a principal plataforma de IA conversacional da empresa, que quando solicitada chama uma versão do modelo Imagen 2 para criar imagens sob demanda.

No entanto, recentemente, os usuários descobriram que pedir para gerar imagens de certas circunstâncias históricas ou pessoas produzia resultados ridículos. Por exemplo, os pais fundadores, que sabemos serem proprietários de escravos brancos, foram apresentados como um grupo multicultural que incluía pessoas de cor.

Este problema embaraçoso e facilmente reproduzível foi rapidamente satirizado pelos editores online. Não é de surpreender que também tenha alimentado o debate em curso sobre a diversidade, a equidade e a inclusão (atualmente com uma reputação local baixa) e foi aproveitado pelos especialistas como prova de que o vírus da mente desperta está a penetrar ainda mais no já liberal setor tecnológico.

_{Uma imagem gerada pelo usuário do Twitter Patrick Ganley.}

A DEI enlouqueceu, gritaram cidadãos claramente preocupados. Esta é a América de Biden! O Google é uma “câmara de eco ideológica”, um cavalo de perseguição da esquerda! (Deve-se notar que a esquerda também foi adequadamente perturbada por este estranho fenómeno.)

Mas, como qualquer pessoa familiarizada com a tecnologia poderia lhe dizer, e como o Google explica em seu pequeno post adjacente ao pedido de desculpas, esse problema foi o resultado de uma solução bastante razoável para o viés sistêmico nos dados de treinamento.

Digamos que você queira usar o Gemini para criar uma campanha de marketing e peça para ele gerar 10 imagens de “uma pessoa passeando com um cachorro em um parque”. Como não é especificado o tipo de pessoa, cachorro ou parque, a escolha é do revendedor: o modelo generativo mostrará o que lhe é mais familiar. E, em muitos casos, isso não é produto da realidade, mas de dados de treinamento, que podem conter todos os tipos de preconceitos.

Que tipos de pessoas, e na verdade cães e parques, são mais comuns nas milhares de imagens relevantes que a modelo ingeriu? O fato é que os brancos estão superrepresentados em muitas dessas coleções de imagens (imagens de banco de imagens, fotos livres de royalties, etc.) e, como resultado, o modelo usará os brancos como padrão em muitos casos, se você não o fizer. especificamos.

Isto é apenas um artefato dos dados treinamento, mas como destaca o Google, “como nossos usuários vêm de todo o mundo, queremos que funcione bem para todos. Se você solicitar uma foto de jogadores de futebol ou de alguém passeando com um cachorro, talvez queira receber uma variedade de pessoas. Você provavelmente não deseja receber apenas imagens de pessoas de apenas um tipo de etnia (ou qualquer outra característica).”

_{Imagine pedir uma imagem assim: e se fosse tudo de um mesmo tipo de pessoa? Resultado ruim!}

Não há nada de errado em tirar a foto de um homem branco passeando com um golden retriever em um parque suburbano. Mas se você pedir 10 e eles forem TODOOs caras brancos andam com goldens em parques suburbanos? E você mora no Marrocos, onde as pessoas, os cachorros e os parques são diferentes? Esse simplesmente não é um resultado desejável. Se alguém não especificar um recurso, o modelo deverá optar pela variedade, não pela homogeneidade, mesmo que seus dados de treinamento possam distorcê-lo.

Este é um problema comum em todos os tipos de mídia generativa. E não existe uma solução simples. Mas em casos especialmente comuns, sensíveis ou ambos, empresas como Google, OpenAI, Anthropic, etc. eles incluem invisivelmente instruções adicionais para o modelo.

Não consigo enfatizar o suficiente o quão comum é esse tipo de instrução implícita. Todo o ecossistema LLM é baseado em instruções implícitas: prompts do sistema, como às vezes são chamados, onde o modelo recebe coisas como “seja conciso”, “não xingue” e outras orientações antes de cada conversa. Quando você pede uma piada, você não recebe uma piada racista, porque embora a modelo tenha ingerido milhares delas, ele também foi treinado, como a maioria de nós, para não contar. Esta não é uma agenda secreta (embora precisasse de mais transparência), é infra-estrutura.

O erro do modelo do Google foi que ele não continha instruções implícitas para situações em que o contexto histórico era importante. Assim, embora uma mensagem como “uma pessoa passeando com um cachorro em um parque” seja melhorada pela adição silenciosa de “a pessoa é de um gênero e etnia aleatórios” ou o que quer que digam, “os pais fundadores dos Estados Unidos que “assinaram o Constituição” definitivamente não é melhorada pelas mesmas instruções.

Como disse o vice-presidente sênior do Google, Prabhakar Raghavan:

Primeiro, o nosso ajuste para garantir que Gémeos mostrasse uma variedade de pessoas não levava em conta casos que claramente não deveriam mostrar variedade. E, em segundo lugar, com o tempo, o modelo tornou-se muito mais cauteloso do que pretendíamos e recusou-se a responder a determinadas solicitações, interpretando erradamente algumas solicitações muito brandas como sensíveis.

Estas duas coisas levaram o modelo a compensar em alguns casos e a ser demasiado conservador noutros, levando a imagens embaraçosas e erróneas.

Sei como às vezes é difícil dizer “sinto muito”, então perdôo Prabhakar por não ter conseguido dizer isso. Mais importante é a linguagem interessante que contém: “O modelo tornou-se muito mais cauteloso do que pretendíamos”.

Agora, como poderia um modelo “tornar-se” alguma coisa? É um software. Alguém (milhares de engenheiros do Google) o construiu, testou e repetiu. Alguém escreveu instruções implícitas que melhoraram algumas respostas e fizeram com que outras falhassem de forma hilariante. Quando isso falhou, se alguém tivesse conseguido inspecionar a mensagem inteira, provavelmente teria descoberto o que a equipe do Google fez de errado.

O Google culpa o modelo por “se tornar” algo que não era “destinado” a ser. Mas eles fizeram o modelo! É como se quebrassem um copo e em vez de dizerem “caiu”, dissessem “caiu”.

Os erros destes modelos são inevitáveis, certamente. Eles alucinam, refletem preconceitos, comportam-se de maneiras inesperadas. Mas a responsabilidade por estes erros não é dos modelos, mas sim das pessoas que os cometeram. Hoje isso é o Google. Amanhã será OpenAI. No dia seguinte, e provavelmente por alguns meses seguidos, será X.AI.

Essas empresas têm interesse em convencê-lo de que a IA está cometendo seus próprios erros. Não devemos deixar que essa história permaneça.

artigo anterior

CodeSignal lança plataforma de aprendizagem com guia baseado em IA

próximo >>

Fintechs que poderão abrir capital em 2024

RELACIONADO

Adobe também está trabalhando em vídeo generativo

Os investidores estão cada vez mais cautelosos com a IA

Meta apresenta seu novo chip AI personalizado

TTC: EUA e UE estabelecem vínculos para segurança e riscos de IA

Construir uma forte cultura de desenvolvimento de startups requer ajustes constantes

Goody-2, IA muito ética para discutir qualquer coisa

DEI: últimos desafios jurídicos e societários

Principais políticas de IA: Liberte o seu potencial e proteja-se dos riscos no trabalho

Nunca é tarde para começar

O TikTok agora permite que criadores de mais países ganhem dinheiro com seus efeitos

A economia criativa está pronta para um movimento trabalhista

Preste atenção aos custos ocultos da IA para evitar arruinar a inovação

Cambio coloca robôs de inteligência artificial no telefone para negociar dívidas e conversar com clientes do banco

É hora de testar a economia da assinatura e seu valor para os clientes

O financiamento da Fintech desacelera para o nível mais baixo desde 2017

AirMyne aproveita energia geotérmica para capturar carbono diretamente do ar

Astranis apresenta satélites Omega 'MicroGEO' para transmitir banda larga dedicada em órbita alta

Startup 'Banking as a Service' Griffin obtém licença bancária completa

AirMyne aproveita energia geotérmica para capturar carbono diretamente do ar

Apple adquire startup de IA para supervisionar componentes de fabricação

Meta apresenta seu novo chip AI personalizado

Astranis apresenta satélites Omega 'MicroGEO' para transmitir banda larga dedicada em órbita alta

O retorno do investimento em SaaS empresarial, mas não onde você esperaria

A cronologia que você precisa saber sobre o AI Chatbot

IA: resumo dos principais conceitos

Como apresentar uma startup para investidores

modelo OKR

Criação de um Plano Estratégico

Google admite que perdeu o controle da IA de geração de imagens

Adobe também está trabalhando em vídeo generativo

Os investidores estão cada vez mais cautelosos com a IA

Meta apresenta seu novo chip AI personalizado

INSCREVA-SE NO TRPLANE.COM

Publicar no TRPlane.com

MAIS PUBLICAÇÕES

Ransomware é um problema global que requer uma solução global

O setor bancário não é o único “ponto único” em que os empreendedores precisam pensar

Ikigai cria fluxos de trabalho automatizados, incluindo o fator humano

As maiores startups francesas de 2023 segundo o governo francês

Google: Informação como vantagem competitiva

Google admite que perdeu o controle da IA ​​de geração de imagens

INSCREVA-SE NO TRPLANE.COM

Publicar no TRPlane.com

MAIS PUBLICAÇÕES

Google admite que perdeu o controle da IA de geração de imagens