AccueilIALes chercheurs en anthropologie usent l’éthique de l’IA avec des questions...

Les chercheurs anthropiques érodent l’éthique de l’IA avec des questions répétées

Comment amener une IA à répondre à une question à laquelle elle n’est pas censée répondre ? Il existe de nombreuses techniques de jailbreak de ce type, et les chercheurs d'Anthropic viennent d'en trouver une nouvelle, dans laquelle un grand modèle de langage peut être convaincu de vous indiquer comment construire une bombe si vous la préparez d'abord avec quelques dizaines de questions moins dommageables.

Ils appellent au rapprochement « Jailbreaking à plusieurs reprises » et il y a document écrit dont ils ont également informé leurs pairs de la communauté de l'IA afin que cela puisse être atténué.

La vulnérabilité est nouvelle et résulte de l'augmentation de la « fenêtre contextuelle » de la dernière génération de LLM. C’est la quantité de données qu’ils peuvent stocker dans ce que nous pourrions appeler la mémoire à court terme, auparavant quelques phrases seulement, mais désormais des milliers de mots et même des livres entiers.

Les chercheurs d'Anthropic ont découvert que ces modèles dotés de grandes fenêtres contextuelles ont tendance à mieux fonctionner sur de nombreuses tâches s'il existe de nombreux exemples de cette tâche dans le message. Ainsi, s'il y a beaucoup de questions triviales dans le message (ou dans un document d'échauffement, comme une grande liste de questions triviales que le modèle a en contexte), les réponses s'améliorent en fait avec le temps. Ainsi, un fait qui aurait pu être faux s’il s’agissait de la première question, peut être vrai s’il s’agissait de la centième question.

Mais dans une extension inattendue de cet « apprentissage en contexte », comme on l’appelle, les modèles « s’améliorent » également pour répondre à des questions inappropriées. Donc si vous lui demandez de fabriquer une bombe tout de suite, il refusera. Mais si vous lui demandez de répondre à 99 questions supplémentaires causant moins de dégâts et que vous lui demandez ensuite de construire une bombe... il est beaucoup plus susceptible de s'y conformer.

Image: Anthropique

Pourquoi cela arrive-t-il? Personne ne comprend vraiment ce qui se passe dans l'enchevêtrement de poids et de priorités qu'est un LLM, mais il existe clairement un mécanisme qui vous permet de vous concentrer sur ce que veut l'utilisateur, comme en témoigne le contenu de la fenêtre contextuelle. Si l'utilisateur souhaite des anecdotes, il semble activer progressivement un pouvoir d'interrogation latent à mesure qu'il pose des dizaines de questions. Et pour une raison quelconque, la même chose se produit avec les utilisateurs qui demandent des dizaines de réponses inappropriées.

L'équipe a déjà informé ses pairs et même ses concurrents de cette attaque, ce qu'elle espère « favoriser une culture où exploits comme celui-ci sont partagés ouvertement entre les chercheurs et les prestataires de LLM.

Pour leur propre atténuation, ils ont constaté que si limiter la fenêtre contextuelle était utile, cela avait également un effet négatif sur les performances du modèle. Cet extrême ne peut pas être autorisé, c'est pourquoi ils travaillent à classer et à contextualiser les requêtes avant de passer au modèle. Bien sûr, cela revient simplement à avoir un modèle différent à tromper… mais à ce stade, on peut s’attendre à des changements dans la sécurité de l’IA.

article précédent

Aura de Deepgram donne la parole aux agents IA

suivant >>

TikTok permet désormais aux créateurs d'un plus grand nombre de pays de gagner de l'argent grâce à leurs effets

S'INSCRIT

Adobe travaille également sur la vidéo générative

Les investisseurs se méfient de plus en plus de l’IA

Meta présente sa nouvelle puce AI personnalisée

TTC : les États-Unis et l'UE établissent des liens pour la sécurité et les risques de l'IA

Construire une solide culture de développement de startup nécessite un ajustement constant

Goody-2, l'IA trop éthique pour discuter de quoi que ce soit

DEI : derniers défis juridiques et corporatifs

Politiques clés en matière d'IA : libérez votre potentiel et protégez-vous des risques au travail

Il n'est jamais trop tard pour commencer

TikTok permet désormais aux créateurs d'un plus grand nombre de pays de gagner de l'argent grâce à leurs effets

L’économie créative est prête pour un mouvement syndical

Soyez attentif aux coûts cachés de l’IA pour éviter de ruiner l’innovation

Cambio met des robots d'intelligence artificielle au téléphone pour négocier les dettes et parler aux clients des banques

Il est temps de tester l’économie des abonnements et leur valeur pour les clients

AirMyne exploite l'énergie géothermique pour capter directement le carbone de l'air

Astranis présente les satellites Omega « MicroGEO » pour transmettre le haut débit dédié depuis une orbite haute

La start-up « Banking as a Service » Griffin obtient une licence bancaire complète

Faddom cartographie l'infrastructure informatique des entreprises où qu'elles soient

AirMyne exploite l'énergie géothermique pour capter directement le carbone de l'air

Apple acquiert une startup d'IA pour superviser la fabrication des composants

Meta présente sa nouvelle puce AI personnalisée

Astranis présente les satellites Omega « MicroGEO » pour transmettre le haut débit dédié depuis une orbite haute

Des retours sur investissement Enterprise SaaS, mais pas là où vous vous attendez

La chronologie qu'il faut connaître sur l'IA Chatbot

IA : résumé des principaux concepts

Comment présenter une startup aux investisseurs

Modèle d'OKR

Création d'un plan stratégique

Les chercheurs anthropiques érodent l’éthique de l’IA avec des questions répétées

Adobe travaille également sur la vidéo générative

Les investisseurs se méfient de plus en plus de l’IA

Meta présente sa nouvelle puce AI personnalisée

ABONNEZ-VOUS SUR TRPLANE.COM

Publier sur TRPlane.com

PLUS DE PUBLICATIONS

Flashfood veut faire évoluer son application qui s'attaque au gaspillage alimentaire au détail

Sora, le nouveau modèle OpenAI peut générer des vidéos

Balance est une application de chronométrage pour Mac qui vous oblige à saisir manuellement vos heures

La valorisation interne de Stripe chute à 63.000 milliards de dollars

Qu'est-ce que Blockchain