HomeIAAnthropische Forscher untergraben die KI-Ethik mit Fragen ...

Anthropische Forscher untergraben die KI-Ethik durch wiederholte Fragen

Wie bringt man eine KI dazu, eine Frage zu beantworten, die sie eigentlich nicht beantworten sollte? Es gibt viele solcher Jailbreaking-Techniken, und Anthropic-Forscher haben gerade eine neue entdeckt, bei der ein großes Sprachmodell davon überzeugt werden kann, Ihnen zu sagen, wie man eine Bombe baut, wenn Sie sie zunächst mit ein paar Dutzend weniger schädlichen Fragen vorbereiten.

Sie fordern eine Annäherung „Jailbreaking mit vielen Schüssen“ und dort schriftliches Dokument worüber sie auch ihre Kollegen in der KI-Community informierten, damit das Problem abgemildert werden kann.

Die Schwachstelle ist neu und resultiert aus der Vergrößerung des „Kontextfensters“ der neuesten LLM-Generation. Das ist die Datenmenge, die sie in dem sogenannten Kurzzeitgedächtnis speichern können, früher nur ein paar Sätze, jetzt aber Tausende von Wörtern und sogar ganze Bücher.

Die Anthropic-Forscher fanden heraus, dass diese Modelle mit großen Kontextfenstern bei vielen Aufgaben tendenziell eine bessere Leistung erbringen, wenn die Nachricht viele Beispiele für diese Aufgabe enthält. Wenn die Nachricht (oder das Aufwärmdokument, z. B. eine lange Liste von Wissenswertem, die das Modell im Kontext hat) viele triviale Fragen enthält, verbessern sich die Antworten mit der Zeit tatsächlich. Eine Tatsache, die bei der ersten Frage möglicherweise falsch gewesen wäre, könnte bei der hundertsten Frage richtig sein.

Aber in einer unerwarteten Erweiterung dieses sogenannten „Lernens im Kontext“ werden die Modelle auch „besser“ bei der Beantwortung unangemessener Fragen. Wenn Sie ihn also bitten, sofort eine Bombe zu bauen, wird er dies ablehnen. Aber wenn Sie ihn bitten, 99 weitere Fragen mit geringerem Schaden zu beantworten und ihn dann bitten, eine Bombe zu bauen, ist die Wahrscheinlichkeit, dass er dem nachkommt, viel größer.

Bild: Anthropisch

Warum passiert das? Niemand versteht wirklich, was in dem Gewirr von Gewichtungen und Prioritäten eines LLM vor sich geht, aber es gibt eindeutig einen Mechanismus, der es Ihnen ermöglicht, sich auf das zu konzentrieren, was der Benutzer möchte, wie der Inhalt im Kontextfenster zeigt. Wenn der Benutzer Wissenswertes möchte, scheint er nach und nach mehr latente Wissenskompetenz zu aktivieren, wenn er Dutzende von Fragen stellt. Und aus irgendeinem Grund passiert das Gleiche auch mit Benutzern, die Dutzende unangemessener Antworten verlangen.

Das Team hat seine Kollegen und sogar seine Konkurrenten bereits über diesen Angriff informiert und hofft, damit „eine Kultur zu fördern, in der …“ Abenteuer Solche Informationen werden offen zwischen Forschern und LLM-Anbietern geteilt.

Zu ihrer eigenen Abhilfe stellten sie fest, dass die Einschränkung des Kontextfensters zwar hilfreich ist, sich aber auch negativ auf die Modellleistung auswirkt. Dieses Extrem kann nicht zugelassen werden, weshalb sie an der Klassifizierung und Kontextualisierung der Abfragen arbeiten, bevor sie zum Modell übergehen. Das führt natürlich einfach dazu, dass man ein anderes Modell zum Narren halten muss … aber zum jetzigen Zeitpunkt ist mit Änderungen bei der KI-Sicherheit zu rechnen.

Vorherige Artikel

Die Aura von Deepgram gibt KI-Agenten eine Stimme

weiter >>

Mit TikTok können YouTuber jetzt in mehr Ländern Geld mit ihren Effekten verdienen

VERBUNDEN

Adobe arbeitet auch an generativen Videos

Investoren sind zunehmend misstrauisch gegenüber KI

Meta präsentiert seinen neuen maßgeschneiderten KI-Chip

TTC: USA und EU stellen Verbindungen für KI-Sicherheit und -Risiken her

Der Aufbau einer starken Startup-Entwicklungskultur erfordert ständige Anpassung

Goody-2, KI ist zu ethisch, um irgendetwas zu diskutieren

DEI: aktuelle rechtliche und unternehmerische Herausforderungen

Wichtige KI-Richtlinien: Schöpfen Sie Ihr Potenzial aus und schützen Sie sich vor Risiken am Arbeitsplatz

Es ist nie zu spät, damit anzufangen

Mit TikTok können YouTuber jetzt in mehr Ländern Geld mit ihren Effekten verdienen

Die Kreativwirtschaft ist bereit für eine Arbeiterbewegung

Achten Sie auf die versteckten Kosten von KI, um Innovationen nicht zu ruinieren

Cambio setzt Roboter mit künstlicher Intelligenz am Telefon ein, um Schulden zu verhandeln und mit Bankkunden zu sprechen

Es ist an der Zeit, die Wirtschaftlichkeit von Abonnements und ihren Wert für Kunden auf die Probe zu stellen

AirMyne nutzt Geothermie, um Kohlenstoff direkt aus der Luft zu binden

Astranis präsentiert Omega-„MicroGEO“-Satelliten zur dedizierten Breitbandübertragung aus hoher Umlaufbahn

„Banking as a Service“-Startup Griffin erhält vollständige Banklizenz

Faddom bildet die IT-Infrastruktur von Unternehmen an jedem Ort ab

AirMyne nutzt Geothermie, um Kohlenstoff direkt aus der Luft zu binden

Apple erwirbt KI-Startup, um die Herstellung von Komponenten zu überwachen

Meta präsentiert seinen neuen maßgeschneiderten KI-Chip

Astranis präsentiert Omega-„MicroGEO“-Satelliten zur dedizierten Breitbandübertragung aus hoher Umlaufbahn

Die Rendite von Unternehmens-SaaS-Investitionen liegt nicht im erwarteten Umfang

Die Chronologie, die Sie über den KI-Chatbot wissen müssen

KI: Zusammenfassung der Hauptkonzepte

Wie man ein Startup Investoren präsentiert

OKR-Modell

Erstellung eines strategischen Plans

Anthropische Forscher untergraben die KI-Ethik durch wiederholte Fragen

Adobe arbeitet auch an generativen Videos

Investoren sind zunehmend misstrauisch gegenüber KI

Meta präsentiert seinen neuen maßgeschneiderten KI-Chip

ABONNIEREN SIE TRPLANE.COM

Veröffentlichen Sie auf TRPlane.com

WEITERE PUBLIKATIONEN

Flashfood will seine App zur Bekämpfung von Lebensmittelverschwendung im Einzelhandel skalieren

Sora, das neue OpenAI-Modell, kann Videos generieren

Balance ist eine Mac-Zeiterfassungs-App, bei der Sie Ihre Stunden manuell eingeben müssen

Die interne Bewertung von Stripe sinkt auf 63.000 Milliarden US-Dollar

Was ist Blockchain