Spanish English French German Italian Portuguese
Soziales Marketing
HomeIAAnthropische Forscher untergraben die KI-Ethik mit Fragen ...

Anthropische Forscher untergraben die KI-Ethik durch wiederholte Fragen

Wie bringt man eine KI dazu, eine Frage zu beantworten, die sie eigentlich nicht beantworten sollte? Es gibt viele solcher Jailbreaking-Techniken, und Anthropic-Forscher haben gerade eine neue entdeckt, bei der ein großes Sprachmodell davon überzeugt werden kann, Ihnen zu sagen, wie man eine Bombe baut, wenn Sie sie zunächst mit ein paar Dutzend weniger schädlichen Fragen vorbereiten.

Sie fordern eine Annäherung „Jailbreaking mit vielen Schüssen“ und dort schriftliches Dokument worüber sie auch ihre Kollegen in der KI-Community informierten, damit das Problem abgemildert werden kann.

Die Schwachstelle ist neu und resultiert aus der Vergrößerung des „Kontextfensters“ der neuesten LLM-Generation. Das ist die Datenmenge, die sie in dem sogenannten Kurzzeitgedächtnis speichern können, früher nur ein paar Sätze, jetzt aber Tausende von Wörtern und sogar ganze Bücher.

Die Anthropic-Forscher fanden heraus, dass diese Modelle mit großen Kontextfenstern bei vielen Aufgaben tendenziell eine bessere Leistung erbringen, wenn die Nachricht viele Beispiele für diese Aufgabe enthält. Wenn die Nachricht (oder das Aufwärmdokument, z. B. eine lange Liste von Wissenswertem, die das Modell im Kontext hat) viele triviale Fragen enthält, verbessern sich die Antworten mit der Zeit tatsächlich. Eine Tatsache, die bei der ersten Frage möglicherweise falsch gewesen wäre, könnte bei der hundertsten Frage richtig sein.

Aber in einer unerwarteten Erweiterung dieses sogenannten „Lernens im Kontext“ werden die Modelle auch „besser“ bei der Beantwortung unangemessener Fragen. Wenn Sie ihn also bitten, sofort eine Bombe zu bauen, wird er dies ablehnen. Aber wenn Sie ihn bitten, 99 weitere Fragen mit geringerem Schaden zu beantworten und ihn dann bitten, eine Bombe zu bauen, ist die Wahrscheinlichkeit, dass er dem nachkommt, viel größer.

Bild: Anthropisch

Warum passiert das? Niemand versteht wirklich, was in dem Gewirr von Gewichtungen und Prioritäten eines LLM vor sich geht, aber es gibt eindeutig einen Mechanismus, der es Ihnen ermöglicht, sich auf das zu konzentrieren, was der Benutzer möchte, wie der Inhalt im Kontextfenster zeigt. Wenn der Benutzer Wissenswertes möchte, scheint er nach und nach mehr latente Wissenskompetenz zu aktivieren, wenn er Dutzende von Fragen stellt. Und aus irgendeinem Grund passiert das Gleiche auch mit Benutzern, die Dutzende unangemessener Antworten verlangen.

Das Team hat seine Kollegen und sogar seine Konkurrenten bereits über diesen Angriff informiert und hofft, damit „eine Kultur zu fördern, in der …“ Abenteuer Solche Informationen werden offen zwischen Forschern und LLM-Anbietern geteilt.

Zu ihrer eigenen Abhilfe stellten sie fest, dass die Einschränkung des Kontextfensters zwar hilfreich ist, sich aber auch negativ auf die Modellleistung auswirkt. Dieses Extrem kann nicht zugelassen werden, weshalb sie an der Klassifizierung und Kontextualisierung der Abfragen arbeiten, bevor sie zum Modell übergehen. Das führt natürlich einfach dazu, dass man ein anderes Modell zum Narren halten muss … aber zum jetzigen Zeitpunkt ist mit Änderungen bei der KI-Sicherheit zu rechnen.

VERBUNDEN

ABONNIEREN SIE TRPLANE.COM

Veröffentlichen Sie auf TRPlane.com

Wenn Sie eine interessante Geschichte über Transformation, IT, Digital usw. mit einem Platz in TRPlane.com haben, senden Sie sie uns bitte und wir werden sie mit der gesamten Community teilen.

WEITERE PUBLIKATIONEN

Benachrichtigungen aktivieren OK Nein danke