CasaIAI ricercatori antropici erodono l’etica dell’IA con domande...

I ricercatori antropici erodono l’etica dell’IA con domande ripetute

Come si fa a convincere un'intelligenza artificiale a rispondere a una domanda a cui non dovrebbe rispondere? Esistono molte tecniche di jailbreak di questo tipo e i ricercatori di Anthropic ne hanno appena trovata una nuova, in cui un ampio modello linguistico può essere convinto a dirti come costruire una bomba se prima la prepari con qualche dozzina di domande meno dannose.

Chiedono un riavvicinamento “Jailbreak a più colpi” fieno documento scritto di cui hanno informato anche i loro colleghi della comunità AI in modo che possa essere mitigato.

La vulnerabilità è nuova e deriva dall'aumento della “finestra di contesto” dell'ultima generazione di LLM. Questa è la quantità di dati che possono immagazzinare in quella che potremmo chiamare memoria a breve termine, prima solo poche frasi ma ora migliaia di parole e persino interi libri.

Ciò che i ricercatori di Anthropic hanno scoperto è che questi modelli con ampie finestre di contesto tendono a funzionare meglio in molti compiti se ci sono molti esempi di quel compito all’interno del messaggio. Quindi, se nel messaggio (o in un documento di riscaldamento, come un lungo elenco di curiosità che il modello ha nel contesto) sono presenti molte domande di curiosità, le risposte effettivamente migliorano nel tempo. Quindi un fatto che avrebbe potuto essere sbagliato se fosse stata la prima domanda, potrebbe essere giusto se fosse stata la centesima domanda.

Ma in un’estensione inaspettata di questo “apprendimento nel contesto”, come viene chiamato, i modelli “migliorano” anche nel rispondere a domande inappropriate. Quindi se gli chiedi di costruire subito una bomba, rifiuterà. Ma se gli chiedi di rispondere ad altre 99 domande sui danni minori e poi gli chiedi di costruire una bomba... è molto più probabile che obbedisca.

Immagine: Antropico

Perché sta succedendo? Nessuno capisce veramente cosa succede nel groviglio di pesi e priorità che è un LLM, ma c'è chiaramente qualche meccanismo che consente di concentrarsi su ciò che vuole l'utente, come evidenziato dal contenuto nella finestra di contesto. Se l'utente vuole curiosità, sembra attivare gradualmente un potere di curiosità latente mentre fa dozzine di domande. E per qualche motivo, la stessa cosa accade con gli utenti che chiedono decine di risposte inappropriate.

Il team ha già informato i propri colleghi e anche i concorrenti di questo attacco, qualcosa che sperano di "promuovere una cultura in cui gesta come questo sono condivisi apertamente tra ricercatori e fornitori di LLM.

Per mitigare il problema, hanno scoperto che, sebbene limitare la finestra di contesto sia utile, ha anche un effetto negativo sulle prestazioni del modello. Questo estremo non può essere consentito, motivo per cui stanno lavorando sulla classificazione e contestualizzazione delle query prima di passare al modello. Naturalmente, ciò si traduce semplicemente nell’avere un modello diverso da ingannare… ma in questa fase ci si possono aspettare cambiamenti alla sicurezza dell’IA.

articolo precedente

L'Aura di Deepgram dà voce agli agenti dell'IA

avanti >>

TikTok ora consente ai creatori di più paesi di guadagnare denaro dai loro effetti

IMPARENTATO

Adobe sta lavorando anche su video generativi

Gli investitori sono sempre più diffidenti nei confronti dell’intelligenza artificiale

Meta presenta il suo nuovo chip AI personalizzato

TTC: Stati Uniti e UE stabiliscono collegamenti per la sicurezza e i rischi dell’IA

Costruire una forte cultura di sviluppo delle startup richiede un aggiustamento costante

Goody-2, l'IA è troppo etica per discutere di qualsiasi cosa

DEI: le ultime sfide giuridiche e aziendali

Politiche chiave sull'intelligenza artificiale: libera il tuo potenziale e proteggiti dai rischi sul lavoro

Non è mai troppo tardi per iniziare

TikTok ora consente ai creatori di più paesi di guadagnare denaro dai loro effetti

L’economia creativa è pronta per un movimento operaio

Prestare attenzione ai costi nascosti dell’intelligenza artificiale per evitare di rovinare l’innovazione

Cambio mette al telefono robot di intelligenza artificiale per negoziare debiti e parlare con i clienti delle banche

È ora di mettere alla prova l'economia dell'abbonamento e il suo valore per i clienti

AirMyne sfrutta l'energia geotermica per catturare direttamente il carbonio dall'aria

Astranis presenta i satelliti Omega 'MicroGEO' per trasmettere la banda larga dedicata dall'orbita alta

La startup Griffin "Banking as a Service" ottiene la licenza bancaria completa

Faddom mappa l'infrastruttura IT delle aziende in qualsiasi luogo

AirMyne sfrutta l'energia geotermica per catturare direttamente il carbonio dall'aria

Apple acquisisce una startup AI per supervisionare i componenti di produzione

Meta presenta il suo nuovo chip AI personalizzato

Astranis presenta i satelliti Omega 'MicroGEO' per trasmettere la banda larga dedicata dall'orbita alta

I rendimenti degli investimenti SaaS aziendali, ma non dove ti aspetteresti

La cronologia che devi conoscere sul Chatbot AI

AI: sintesi dei concetti principali

Come presentare una startup agli investitori

Modello OKR

Creazione di un piano strategico

I ricercatori antropici erodono l’etica dell’IA con domande ripetute

Adobe sta lavorando anche su video generativi

Gli investitori sono sempre più diffidenti nei confronti dell’intelligenza artificiale

Meta presenta il suo nuovo chip AI personalizzato

ISCRIVITI A TRPLANE.COM

Pubblica su TRPlane.com

ALTRE PUBBLICAZIONI

Flashfood vuole ridimensionare la sua app che affronta lo spreco alimentare al dettaglio

Sora, il nuovo modello OpenAI può generare video

Balance è un'app di cronometraggio per Mac che richiede di inserire manualmente le tue ore

La valutazione interna di Stripe scende a 63.000 miliardi di dollari

Che cos'è la Blockchain