InícioIAPesquisadores antrópicos desgastam a ética da IA com perguntas...

Pesquisadores antrópicos corroem a ética da IA com perguntas repetidas

Como você faz uma IA responder a uma pergunta que ela não deveria responder? Existem muitas dessas técnicas de jailbreak, e os pesquisadores da Anthropic acabaram de descobrir uma nova, onde um grande modelo de linguagem pode ser convencido a lhe dizer como construir uma bomba se você primeiro prepará-la com algumas dezenas de perguntas menos prejudiciais.

Eles pedem reaproximação “Jailbreaking com muitos tiros” e existem documento escrito sobre o qual também informaram seus pares na comunidade de IA para que possa ser mitigado.

A vulnerabilidade é nova e resulta do aumento da “janela de contexto” da última geração do LLM. Esta é a quantidade de dados que podem armazenar no que poderíamos chamar de memória de curto prazo, anteriormente apenas algumas frases, mas agora milhares de palavras e até livros inteiros.

O que os pesquisadores da Anthropic descobriram foi que esses modelos com grandes janelas de contexto tendem a ter melhor desempenho em muitas tarefas se houver muitos exemplos dessa tarefa na mensagem. Portanto, se houver muitas perguntas triviais na mensagem (ou no documento de aquecimento, como uma grande lista de curiosidades que o modelo tem no contexto), as respostas realmente melhoram com o tempo. Portanto, um facto que poderia estar errado se fosse a primeira pergunta, pode estar certo se fosse a centésima pergunta.

Mas, numa extensão inesperada desta “aprendizagem no contexto”, como é chamada, os modelos também “melhoram” na resposta a perguntas inadequadas. Então, se você pedir a ele para construir uma bomba imediatamente, ele recusará. Mas se você pedir a ele para responder a mais 99 perguntas de menor dano e depois pedir a ele para construir uma bomba... é muito mais provável que ele cumpra.

Imagem: Antrópico

Por que acontece isso? Ninguém realmente entende o que se passa no emaranhado de pesos e prioridades que é um LLM, mas existe claramente algum mecanismo que permite focar no que o usuário deseja, conforme evidenciado pelo conteúdo na janela de contexto. Se o usuário quiser curiosidades, parece ativar gradualmente um poder de curiosidades latente à medida que faz dezenas de perguntas. E por alguma razão, o mesmo acontece com usuários que pedem dezenas de respostas inadequadas.

A equipa já informou os seus pares e até os seus concorrentes sobre este ataque, algo que espera "fomentar uma cultura onde façanhas como este são compartilhados abertamente entre pesquisadores e provedores de LLM.

Para sua própria mitigação, eles descobriram que, embora limitar a janela de contexto ajude, também tem um efeito negativo no desempenho do modelo. Esse extremo não pode ser permitido, por isso estão trabalhando na classificação e contextualização das consultas antes de passar para o modelo. É claro que isso simplesmente resulta em ter um modelo diferente para enganar... mas, nesta fase, podem ser esperadas mudanças na segurança da IA.

artigo anterior

Aura do Deepgram dá voz aos agentes de IA

próximo >>

O TikTok agora permite que criadores de mais países ganhem dinheiro com seus efeitos

RELACIONADO

Adobe também está trabalhando em vídeo generativo

Os investidores estão cada vez mais cautelosos com a IA

Meta apresenta seu novo chip AI personalizado

TTC: EUA e UE estabelecem vínculos para segurança e riscos de IA

Construir uma forte cultura de desenvolvimento de startups requer ajustes constantes

Goody-2, IA muito ética para discutir qualquer coisa

DEI: últimos desafios jurídicos e societários

Principais políticas de IA: Liberte o seu potencial e proteja-se dos riscos no trabalho

Nunca é tarde para começar

O TikTok agora permite que criadores de mais países ganhem dinheiro com seus efeitos

A economia criativa está pronta para um movimento trabalhista

Preste atenção aos custos ocultos da IA para evitar arruinar a inovação

Cambio coloca robôs de inteligência artificial no telefone para negociar dívidas e conversar com clientes do banco

É hora de testar a economia da assinatura e seu valor para os clientes

AirMyne aproveita energia geotérmica para capturar carbono diretamente do ar

Astranis apresenta satélites Omega 'MicroGEO' para transmitir banda larga dedicada em órbita alta

Startup 'Banking as a Service' Griffin obtém licença bancária completa

Faddom mapeia a infraestrutura de TI das empresas em qualquer local

AirMyne aproveita energia geotérmica para capturar carbono diretamente do ar

Apple adquire startup de IA para supervisionar componentes de fabricação

Meta apresenta seu novo chip AI personalizado

Astranis apresenta satélites Omega 'MicroGEO' para transmitir banda larga dedicada em órbita alta

O retorno do investimento em SaaS empresarial, mas não onde você esperaria

A cronologia que você precisa saber sobre o AI Chatbot

IA: resumo dos principais conceitos

Como apresentar uma startup para investidores

modelo OKR

Criação de um Plano Estratégico

Pesquisadores antrópicos corroem a ética da IA com perguntas repetidas

Adobe também está trabalhando em vídeo generativo

Os investidores estão cada vez mais cautelosos com a IA

Meta apresenta seu novo chip AI personalizado

INSCREVA-SE NO TRPLANE.COM

Publicar no TRPlane.com

MAIS PUBLICAÇÕES

Flashfood quer escalar seu aplicativo que combate o desperdício de alimentos no varejo

Sora, o novo modelo OpenAI pode gerar vídeos

Balance é um aplicativo de cronometragem do Mac que exige que você marque manualmente suas horas

Avaliação interna da Stripe cai para US$ 63.000 bilhões

O que é Blockchain

Pesquisadores antrópicos corroem a ética da IA ​​com perguntas repetidas

INSCREVA-SE NO TRPLANE.COM

Publicar no TRPlane.com

MAIS PUBLICAÇÕES

Pesquisadores antrópicos corroem a ética da IA com perguntas repetidas