Spanish English French German Italian Portuguese
Marketing social
AccueilIALes chercheurs en anthropologie usent l’éthique de l’IA avec des questions...

Les chercheurs anthropiques érodent l’éthique de l’IA avec des questions répétées

Comment amener une IA à répondre à une question à laquelle elle n’est pas censée répondre ? Il existe de nombreuses techniques de jailbreak de ce type, et les chercheurs d'Anthropic viennent d'en trouver une nouvelle, dans laquelle un grand modèle de langage peut être convaincu de vous indiquer comment construire une bombe si vous la préparez d'abord avec quelques dizaines de questions moins dommageables.

Ils appellent au rapprochement « Jailbreaking à plusieurs reprises » et il y a document écrit dont ils ont également informé leurs pairs de la communauté de l'IA afin que cela puisse être atténué.

La vulnérabilité est nouvelle et résulte de l'augmentation de la « fenêtre contextuelle » de la dernière génération de LLM. C’est la quantité de données qu’ils peuvent stocker dans ce que nous pourrions appeler la mémoire à court terme, auparavant quelques phrases seulement, mais désormais des milliers de mots et même des livres entiers.

Les chercheurs d'Anthropic ont découvert que ces modèles dotés de grandes fenêtres contextuelles ont tendance à mieux fonctionner sur de nombreuses tâches s'il existe de nombreux exemples de cette tâche dans le message. Ainsi, s'il y a beaucoup de questions triviales dans le message (ou dans un document d'échauffement, comme une grande liste de questions triviales que le modèle a en contexte), les réponses s'améliorent en fait avec le temps. Ainsi, un fait qui aurait pu être faux s’il s’agissait de la première question, peut être vrai s’il s’agissait de la centième question.

Mais dans une extension inattendue de cet « apprentissage en contexte », comme on l’appelle, les modèles « s’améliorent » également pour répondre à des questions inappropriées. Donc si vous lui demandez de fabriquer une bombe tout de suite, il refusera. Mais si vous lui demandez de répondre à 99 questions supplémentaires causant moins de dégâts et que vous lui demandez ensuite de construire une bombe... il est beaucoup plus susceptible de s'y conformer.

Image: Anthropique

Pourquoi cela arrive-t-il? Personne ne comprend vraiment ce qui se passe dans l'enchevêtrement de poids et de priorités qu'est un LLM, mais il existe clairement un mécanisme qui vous permet de vous concentrer sur ce que veut l'utilisateur, comme en témoigne le contenu de la fenêtre contextuelle. Si l'utilisateur souhaite des anecdotes, il semble activer progressivement un pouvoir d'interrogation latent à mesure qu'il pose des dizaines de questions. Et pour une raison quelconque, la même chose se produit avec les utilisateurs qui demandent des dizaines de réponses inappropriées.

L'équipe a déjà informé ses pairs et même ses concurrents de cette attaque, ce qu'elle espère « favoriser une culture où exploits comme celui-ci sont partagés ouvertement entre les chercheurs et les prestataires de LLM.

Pour leur propre atténuation, ils ont constaté que si limiter la fenêtre contextuelle était utile, cela avait également un effet négatif sur les performances du modèle. Cet extrême ne peut pas être autorisé, c'est pourquoi ils travaillent à classer et à contextualiser les requêtes avant de passer au modèle. Bien sûr, cela revient simplement à avoir un modèle différent à tromper… mais à ce stade, on peut s’attendre à des changements dans la sécurité de l’IA.

S'INSCRIT

ABONNEZ-VOUS SUR TRPLANE.COM

Publier sur TRPlane.com

Si vous avez une histoire intéressante sur la transformation, l'informatique, le numérique, etc. qui peut être trouvée sur TRPlane.com, veuillez nous l'envoyer et nous la partagerons avec toute la communauté.

PLUS DE PUBLICATIONS

Activer les notifications OK Non merci