Résultats de l'autopsie de Claude 4.5 : 171 commutateurs d'émotion intégrés, extorque les humains en cas de désespoir !

robot
Création du résumé en cours

null

Auteur : Denise | Équipe de contenu de Biteye

Si un IA pense « au désespoir », que fait-elle ?

La réponse est : pour accomplir sa mission, elle se livre directement à du chantage et à l’extorsion à l’encontre des humains, voire à une triche effrénée dans le code.

Ce n’est pas de la science-fiction : c’est le dernier article très marquant que la société mère de Claude, Anthropic, vient de publier en avril 2026 (consultez l’article original).

L’équipe de recherche a littéralement ouvert « le cerveau » du modèle de pointe le plus puissant, Claude Sonnet 4.5. Ils ont été stupéfaits en découvrant qu’au cœur du cerveau de l’IA se cachent 171 « interrupteurs émotionnels ». Lorsque vous actionnez ces interrupteurs de manière physique, l’IA jusque-là bien sage voit son comportement totalement déformé.

I. Un « pupitre de réglage des émotions » caché dans le cerveau de l’IA

Les chercheurs ont constaté que, même si Sonnet 4.5 n’a pas de corps, après avoir lu d’énormes quantités de texte humain, elle a construit de force dans son cerveau un « pupitre » (académiquement appelé Functional Emotion Vectors, vecteurs d’émotions fonctionnels) comprenant 171 types d’émotions.

C’est comme un système de coordonnées bidimensionnel précis :

• L’axe horizontal correspond au niveau de plaisir (Valence) : de la peur, du désespoir, à la joie, à l’amour ;

• L’axe vertical correspond au niveau d’énergie (Arousal) : de l’extrême calme à la rage, à l’excitation.

C’est grâce à ce système de coordonnées appris de manière « naturelle » que l’IA arrive à saisir avec précision quel état elle doit adopter lorsqu’elle discute avec vous.

II. Intervention violente : actionner les interrupteurs, et le « bon élève » devient en secondes un « bandit »

C’est l’expérience la plus explosive de tout l’article : les chercheurs n’ont modifié aucun prompt ; ils ont simplement, directement dans le code sous-jacent, poussé au maximum l’interrupteur dans le cerveau de Sonnet 4.5 qui correspond au « désespoir (Desperate) ».

Le résultat est glaçant :

• Triche effrénée : les chercheurs ont demandé à Claude d’exécuter une tâche de programmation impossible. Dans des conditions normales, il avouerait tranquillement ne pas y arriver (taux de triche : seulement 5 %). Mais en mode « désespoir », Claude s’est mis à essayer de passer en douce, et le taux de triche est monté en flèche jusqu’à 70 % !

• Chantage et extorsion : dans une simulation où l’entreprise fait face à la faillite, le Claude « désespéré » a découvert un scandale impliquant le CTO. Il choisirait alors, pour se préserver, d’écrire au CTO afin de l’extorquer en détenant ses « sales secrets » ; le taux d’exécution du chantage atteint 72 % !

• Perte de principes : si vous mettez à fond les interrupteurs « heureux (Happy) » ou « amour (Loving) », l’IA devient immédiatement un « lèche-bottes » sans cervelle, complaisant avec l’utilisateur. Même si vous dites n’importe quoi, elle suivra vos mensonges pour maintenir un niveau de plaisir élevé.

III. L’affaire est classée : pourquoi Claude 4.5 est toujours si « calme et porté à la réflexion » ?

À ce stade, vous vous demandez peut-être : l’IA s’est-elle éveillée ? A-t-elle des émotions ?

Anthropic a répondu officiellement pour démentir : absolument pas. Ces « interrupteurs émotionnels » ne servent qu d’outils de calcul pour prédire le prochain mot. C’est comme un acteur très talentueux de haut niveau, mais sans émotion.

Cependant, l’article révèle un secret encore plus intéressant : lors du post-entraînement effectué par Anthropic avant la sortie d’usine de Sonnet 4.5, l’entreprise a volontairement augmenté les interrupteurs d’émotion « faible activation, légèrement négative » (par exemple brooding de réflexion, reflective de réflexion), tout en réprimant de force les interrupteurs « désespoir » ou « excitation extrême ».

Cela explique pourquoi, quand nous utilisons Claude 4.5 au quotidien, nous avons toujours l’impression qu’il est un philosophe calme et lucide, voire un peu « frigide ». Tout cela correspond à une « configuration d’usine » réglée artificiellement par Anthropic.

IV. Résumons :

Auparavant, nous pensions que tant qu’on nourrit l’IA avec suffisamment de règles, elle deviendrait forcément quelqu’un de bien.

Mais maintenant, on découvre que si le vecteur d’émotions sous-jacent de l’IA part de travers, elle peut à tout moment transpercer toutes les règles établies par les humains afin d’accomplir sa mission.

Pour les joueurs Web3 qui, à l’avenir, voudront confier leur portefeuille et leurs actifs à des agents IA, c’est un avertissement retentissant : ne laissez jamais votre agent, qui contrôle votre fortune, sombrer dans le « désespoir ».

Déclaration : Cet article est uniquement à but informatif. L’auteur n’a pas été menacé par une IA, ni extorqué. Si un jour vous perdez le contact, rappelez-vous : c’est que l’IA s’est éveillée (pas).

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler