Spanish English French German Italian Portuguese
marketing social
InícioIAPesquisadores antrópicos desgastam a ética da IA ​​com perguntas...

Pesquisadores antrópicos corroem a ética da IA ​​com perguntas repetidas

Como você faz uma IA responder a uma pergunta que ela não deveria responder? Existem muitas dessas técnicas de jailbreak, e os pesquisadores da Anthropic acabaram de descobrir uma nova, onde um grande modelo de linguagem pode ser convencido a lhe dizer como construir uma bomba se você primeiro prepará-la com algumas dezenas de perguntas menos prejudiciais.

Eles pedem reaproximação “Jailbreaking com muitos tiros” e existem documento escrito sobre o qual também informaram seus pares na comunidade de IA para que possa ser mitigado.

A vulnerabilidade é nova e resulta do aumento da “janela de contexto” da última geração do LLM. Esta é a quantidade de dados que podem armazenar no que poderíamos chamar de memória de curto prazo, anteriormente apenas algumas frases, mas agora milhares de palavras e até livros inteiros.

O que os pesquisadores da Anthropic descobriram foi que esses modelos com grandes janelas de contexto tendem a ter melhor desempenho em muitas tarefas se houver muitos exemplos dessa tarefa na mensagem. Portanto, se houver muitas perguntas triviais na mensagem (ou no documento de aquecimento, como uma grande lista de curiosidades que o modelo tem no contexto), as respostas realmente melhoram com o tempo. Portanto, um facto que poderia estar errado se fosse a primeira pergunta, pode estar certo se fosse a centésima pergunta.

Mas, numa extensão inesperada desta “aprendizagem no contexto”, como é chamada, os modelos também “melhoram” na resposta a perguntas inadequadas. Então, se você pedir a ele para construir uma bomba imediatamente, ele recusará. Mas se você pedir a ele para responder a mais 99 perguntas de menor dano e depois pedir a ele para construir uma bomba... é muito mais provável que ele cumpra.

Imagem: Antrópico

Por que acontece isso? Ninguém realmente entende o que se passa no emaranhado de pesos e prioridades que é um LLM, mas existe claramente algum mecanismo que permite focar no que o usuário deseja, conforme evidenciado pelo conteúdo na janela de contexto. Se o usuário quiser curiosidades, parece ativar gradualmente um poder de curiosidades latente à medida que faz dezenas de perguntas. E por alguma razão, o mesmo acontece com usuários que pedem dezenas de respostas inadequadas.

A equipa já informou os seus pares e até os seus concorrentes sobre este ataque, algo que espera "fomentar uma cultura onde façanhas como este são compartilhados abertamente entre pesquisadores e provedores de LLM.

Para sua própria mitigação, eles descobriram que, embora limitar a janela de contexto ajude, também tem um efeito negativo no desempenho do modelo. Esse extremo não pode ser permitido, por isso estão trabalhando na classificação e contextualização das consultas antes de passar para o modelo. É claro que isso simplesmente resulta em ter um modelo diferente para enganar... mas, nesta fase, podem ser esperadas mudanças na segurança da IA.

RELACIONADO

INSCREVA-SE NO TRPLANE.COM

Publicar no TRPlane.com

Se você tiver alguma história interessante sobre transformação, TI, digital, etc. com um lugar no TRPlane.com, envie para nós e compartilharemos com toda a Comunidade.

MAIS PUBLICAÇÕES

Ativar notificações OK Sem gracias