Spanish English French German Italian Portuguese
Social marketing
CasaIAI ricercatori antropici erodono l’etica dell’IA con domande...

I ricercatori antropici erodono l’etica dell’IA con domande ripetute

Come si fa a convincere un'intelligenza artificiale a rispondere a una domanda a cui non dovrebbe rispondere? Esistono molte tecniche di jailbreak di questo tipo e i ricercatori di Anthropic ne hanno appena trovata una nuova, in cui un ampio modello linguistico può essere convinto a dirti come costruire una bomba se prima la prepari con qualche dozzina di domande meno dannose.

Chiedono un riavvicinamento “Jailbreak a più colpi” fieno documento scritto di cui hanno informato anche i loro colleghi della comunità AI in modo che possa essere mitigato.

La vulnerabilità è nuova e deriva dall'aumento della “finestra di contesto” dell'ultima generazione di LLM. Questa è la quantità di dati che possono immagazzinare in quella che potremmo chiamare memoria a breve termine, prima solo poche frasi ma ora migliaia di parole e persino interi libri.

Ciò che i ricercatori di Anthropic hanno scoperto è che questi modelli con ampie finestre di contesto tendono a funzionare meglio in molti compiti se ci sono molti esempi di quel compito all’interno del messaggio. Quindi, se nel messaggio (o in un documento di riscaldamento, come un lungo elenco di curiosità che il modello ha nel contesto) sono presenti molte domande di curiosità, le risposte effettivamente migliorano nel tempo. Quindi un fatto che avrebbe potuto essere sbagliato se fosse stata la prima domanda, potrebbe essere giusto se fosse stata la centesima domanda.

Ma in un’estensione inaspettata di questo “apprendimento nel contesto”, come viene chiamato, i modelli “migliorano” anche nel rispondere a domande inappropriate. Quindi se gli chiedi di costruire subito una bomba, rifiuterà. Ma se gli chiedi di rispondere ad altre 99 domande sui danni minori e poi gli chiedi di costruire una bomba... è molto più probabile che obbedisca.

Immagine: Antropico

Perché sta succedendo? Nessuno capisce veramente cosa succede nel groviglio di pesi e priorità che è un LLM, ma c'è chiaramente qualche meccanismo che consente di concentrarsi su ciò che vuole l'utente, come evidenziato dal contenuto nella finestra di contesto. Se l'utente vuole curiosità, sembra attivare gradualmente un potere di curiosità latente mentre fa dozzine di domande. E per qualche motivo, la stessa cosa accade con gli utenti che chiedono decine di risposte inappropriate.

Il team ha già informato i propri colleghi e anche i concorrenti di questo attacco, qualcosa che sperano di "promuovere una cultura in cui gesta come questo sono condivisi apertamente tra ricercatori e fornitori di LLM.

Per mitigare il problema, hanno scoperto che, sebbene limitare la finestra di contesto sia utile, ha anche un effetto negativo sulle prestazioni del modello. Questo estremo non può essere consentito, motivo per cui stanno lavorando sulla classificazione e contestualizzazione delle query prima di passare al modello. Naturalmente, ciò si traduce semplicemente nell’avere un modello diverso da ingannare… ma in questa fase ci si possono aspettare cambiamenti alla sicurezza dell’IA.

IMPARENTATO

ISCRIVITI A TRPLANE.COM

Pubblica su TRPlane.com

Se hai una storia interessante su trasformazione, IT, digitale, ecc. che puoi trovare su TRPlane.com, inviacela e la condivideremo con l'intera Community.

ALTRE PUBBLICAZIONI

Attivare le notifiche OK No grazie