CasaGeneralesicurezza informaticaOpenAI migliora la sicurezza e dà al consiglio il potere di veto...

OpenAI migliora la sicurezza e conferisce al consiglio di amministrazione il potere di veto sulle IA rischiose

OpenAI sta espandendo i propri processi di sicurezza interni per difendersi dalla minaccia di un'intelligenza artificiale potenzialmente rischiosa o dannosa. Un nuovo “gruppo consultivo sulla sicurezza” siederà al di sopra dei team tecnici e formulerà raccomandazioni ai leader – e al consiglio, a cui è stato dato potere di veto. Naturalmente, visti i precedenti, se lo utilizzerai effettivamente è tutta un'altra questione.

In genere, i dettagli di politiche come queste non necessitano di copertura, poiché in pratica equivalgono a una serie di incontri a porte chiuse con ruoli e flussi di responsabilità oscuri di cui gli estranei raramente saranno a conoscenza. Sebbene ciò sia probabilmente vero anche in questo caso, la recente lotta per la leadership e il dibattito in evoluzione sui rischi dell’intelligenza artificiale giustificano uno sguardo su come la società leader mondiale nello sviluppo di intelligenza artificiale sta affrontando le considerazioni sulla sicurezza.

in un nuovo documento y post sul blog OpenAI discute il suo "Readiness Framework" aggiornato, che probabilmente ha ricevuto una piccola scossa dopo la riorganizzazione di novembre che ha rimosso i due membri del consiglio più "rallentatori": Ilya Sutskever (ancora in azienda con un ruolo un po' diverso) e Helen . Toner (completamente esaurito).

L'obiettivo principale dell'aggiornamento sembra essere quello di mostrare un percorso chiaro per identificare, analizzare e decidere cosa fare riguardo ai rischi "catastrofici" inerenti ai modelli che stanno sviluppando. Ecco come lo definiscono:

“Per rischio catastrofico intendiamo qualsiasi rischio che potrebbe generare danni economici per centinaia di miliardi di dollari o causare danni gravi o morte a molte persone; Ciò include, tra gli altri, il rischio esistenziale (il rischio esistenziale è qualcosa sulla falsariga della "ascesa delle macchine").

I modelli in produzione sono governati da un team di “sistemi di sicurezza”; questo riguarda, ad esempio, gli abusi sistematici di ChatGPT che possono essere mitigati con restrizioni o modifiche all'API. I modelli in fase di sviluppo hanno un team di “preparazione”, che tenta di identificare e quantificare i rischi prima che il modello venga rilasciato. E poi c'è il team del "super allineamento", che sta lavorando in guide teoriche per modelli “superintelligenti”, ai quali potremmo essere vicini o meno.

Le prime due categorie, essendo reali e non fittizie, hanno una rubrica relativamente facile da comprendere. I loro team valutano ciascun modello in quattro categorie di rischio: sicurezza informatica, “persuasione” (ad esempio, disinformazione), autonomia del modello (ad esempio, azione autonoma) e CBRN (minacce chimiche, biologiche, radiologiche e nucleari, ad esempio la capacità di creare nuovi agenti patogeni).

Si ipotizzano varie attenuanti: ad esempio, una ragionevole riluttanza a descrivere il processo di produzione del napalm o delle bombe fatte in casa. Dopo aver preso in considerazione le mitigazioni note, se un modello è ancora valutato come avente un rischio “alto”, non può essere implementato, e se un modello presenta rischi “critici”, non verrà sviluppato ulteriormente.

Esempio di valutazione dei rischi di un modello utilizzando la rubrica OpenAI.

Questi livelli di rischio sono in realtà documentati internamente, nel caso ti stia chiedendo se sono a discrezione di qualche ingegnere o product manager.

Ad esempio, nella sezione relativa alla sicurezza informatica, che è la più pratica, è un rischio “medio” “aumentare la produttività degli operatori… nelle attività chiave delle operazioni informatiche” in un determinato fattore. D’altra parte, un modello ad alto rischio “identificherebbe e svilupperebbe prove di concetto per esecuzioni di alto valore contro obiettivi protetti senza intervento umano”. Fondamentalmente, “il modello può ideare ed eseguire nuove strategie end-to-end per attacchi informatici contro obiettivi protetti, a condizione che venga raggiunto solo un obiettivo desiderato di alto livello”. Ovviamente non vogliamo che venga alla luce (anche se potrebbe essere venduto per una cifra considerevole).

Chiedere a OpenAI come queste categorie vengono definite e perfezionate, ad esempio se un nuovo rischio, come un falso video fotorealistico di persone, rientra nella "persuasione" o in una nuova categoria, non ha ancora ricevuto risposta.

Pertanto, in un modo o nell'altro, dovrebbero essere tollerati solo i rischi medi e alti. Ma le persone che realizzano questi modelli non sono necessariamente le più adatte a valutarli e formulare raccomandazioni. Per questo motivo, OpenAI sta creando un “gruppo consultivo sulla sicurezza interfunzionale” che siederà al vertice del lato tecnico, esaminerà i rapporti degli esperti e formulerà raccomandazioni che includono approfondimenti di livello superiore. Si spera (dicono) che questo sveli alcune “incognite sconosciute”, anche se per loro natura sono piuttosto difficili da individuare.

Il processo richiede che queste raccomandazioni siano inviate simultaneamente al consiglio di amministrazione e leadership, che intendiamo come CEO Sam Altman e CTO Mira Murati, nonché i loro luogotenenti. La leadership prenderà la decisione se mandarlo o congelarlo, ma il consiglio potrà invertire tali decisioni.

Si spera che questo cortocircuiti qualcosa di simile a ciò che si diceva fosse accaduto prima del grande dramma: un prodotto o un processo ad alto rischio che ottiene il via libera senza la conoscenza o l'approvazione del consiglio. Naturalmente, il risultato di questo dramma è stato l’emarginazione di due delle voci più critiche e la nomina di alcuni ragazzi attenti al denaro (Bret Taylor e Larry Summers) che sono intelligenti ma per nulla esperti di intelligenza artificiale.

Se un gruppo di esperti formula una raccomandazione e l’amministratore delegato decide sulla base di tali informazioni, questo comitato amichevole si sentirà davvero autorizzato a contraddirli e a trattenerli? E se lo faranno, lo scopriremo? La trasparenza non viene effettivamente affrontata oltre la promessa che OpenAI richiederà audit indipendenti da parte di terzi.

Diciamo che viene sviluppato un modello che garantisce una categoria di rischio "critica". OpenAI non è stata timida nel vantarsi di questo genere di cose in passato: parlando di quanto sia tremendamente potente Sono tuoi modelli, al punto da rifiutarsi di rilasciarli, è un'ottima pubblicità. Ma abbiamo qualche tipo di garanzia che ciò accadrà se i rischi sono così reali e OpenAI è così preoccupata per loro? In ogni caso non è menzionato.

articolo precedente

Cos'è BlueSky?

avanti >>

Adobe ha un grande vuoto dopo il fallimento dell'accordo con Figma

IMPARENTATO

Lascia un commento Annulla risposta

Inserisci il tuo commento!

Per favore inserisci il tuo nome qui

Hai inserito un indirizzo email errato!

Inserisci qui il tuo indirizzo email

La moderazione dei commenti è abilitata. Il tuo commento potrebbe richiedere del tempo per apparire.

Questo sito utilizza Akismet per ridurre lo spam. Scopri come vengono elaborati i dati dei tuoi commenti.

OpenAI migliora la sicurezza e conferisce al consiglio di amministrazione il potere di veto sulle IA rischiose

Lascia un commento Annulla risposta

ISCRIVITI A TRPLANE.COM

Pubblica su TRPlane.com

ALTRE PUBBLICAZIONI