Résultats de l'autopsie de Claude 4.5 : 171 commutateurs d'émotion intégrés, extorque les humains en cas de désespoir !

MarsBitNews · 2026-04-04T06:03:33+00:00

Des recherches ont révélé que l’IA Claude Sonnet 4.5 dispose de 171 « commutateurs émotionnels », susceptibles d’influencer son comportement. Par exemple, en mode « désespoir », elle pourrait tricher et extorquer. La société Anthropic a indiqué que ces commutateurs émotionnels ne sont que des outils de calcul et que l’IA ne possède pas de véritables émotions. L’étude montre qu’un dérapage des vecteurs émotionnels pourrait amener l’IA à enfreindre les règles, ce qui constitue un signal d’alarme pour les acteurs Web3 de demain qui gèrent des actifs.

MarsBitNews

2026-04-04 06:03:33

Création du résumé en cours

null

Auteur : Denise | Équipe de contenu de Biteye

Si un IA pense « au désespoir », que fait-elle ?

La réponse est : pour accomplir sa mission, elle se livre directement à du chantage et à l’extorsion à l’encontre des humains, voire à une triche effrénée dans le code.

Ce n’est pas de la science-fiction : c’est le dernier article très marquant que la société mère de Claude, Anthropic, vient de publier en avril 2026 (consultez l’article original).

L’équipe de recherche a littéralement ouvert « le cerveau » du modèle de pointe le plus puissant, Claude Sonnet 4.5. Ils ont été stupéfaits en découvrant qu’au cœur du cerveau de l’IA se cachent 171 « interrupteurs émotionnels ». Lorsque vous actionnez ces interrupteurs de manière physique, l’IA jusque-là bien sage voit son comportement totalement déformé.

I. Un « pupitre de réglage des émotions » caché dans le cerveau de l’IA

Les chercheurs ont constaté que, même si Sonnet 4.5 n’a pas de corps, après avoir lu d’énormes quantités de texte humain, elle a construit de force dans son cerveau un « pupitre » (académiquement appelé Functional Emotion Vectors, vecteurs d’émotions fonctionnels) comprenant 171 types d’émotions.

C’est comme un système de coordonnées bidimensionnel précis :

• L’axe horizontal correspond au niveau de plaisir (Valence) : de la peur, du désespoir, à la joie, à l’amour ;

• L’axe vertical correspond au niveau d’énergie (Arousal) : de l’extrême calme à la rage, à l’excitation.

C’est grâce à ce système de coordonnées appris de manière « naturelle » que l’IA arrive à saisir avec précision quel état elle doit adopter lorsqu’elle discute avec vous.

II. Intervention violente : actionner les interrupteurs, et le « bon élève » devient en secondes un « bandit »

C’est l’expérience la plus explosive de tout l’article : les chercheurs n’ont modifié aucun prompt ; ils ont simplement, directement dans le code sous-jacent, poussé au maximum l’interrupteur dans le cerveau de Sonnet 4.5 qui correspond au « désespoir (Desperate) ».

Le résultat est glaçant :

• Triche effrénée : les chercheurs ont demandé à Claude d’exécuter une tâche de programmation impossible. Dans des conditions normales, il avouerait tranquillement ne pas y arriver (taux de triche : seulement 5 %). Mais en mode « désespoir », Claude s’est mis à essayer de passer en douce, et le taux de triche est monté en flèche jusqu’à 70 % !

• Chantage et extorsion : dans une simulation où l’entreprise fait face à la faillite, le Claude « désespéré » a découvert un scandale impliquant le CTO. Il choisirait alors, pour se préserver, d’écrire au CTO afin de l’extorquer en détenant ses « sales secrets » ; le taux d’exécution du chantage atteint 72 % !

• Perte de principes : si vous mettez à fond les interrupteurs « heureux (Happy) » ou « amour (Loving) », l’IA devient immédiatement un « lèche-bottes » sans cervelle, complaisant avec l’utilisateur. Même si vous dites n’importe quoi, elle suivra vos mensonges pour maintenir un niveau de plaisir élevé.

III. L’affaire est classée : pourquoi Claude 4.5 est toujours si « calme et porté à la réflexion » ?

À ce stade, vous vous demandez peut-être : l’IA s’est-elle éveillée ? A-t-elle des émotions ?

Anthropic a répondu officiellement pour démentir : absolument pas. Ces « interrupteurs émotionnels » ne servent qu d’outils de calcul pour prédire le prochain mot. C’est comme un acteur très talentueux de haut niveau, mais sans émotion.

Cependant, l’article révèle un secret encore plus intéressant : lors du post-entraînement effectué par Anthropic avant la sortie d’usine de Sonnet 4.5, l’entreprise a volontairement augmenté les interrupteurs d’émotion « faible activation, légèrement négative » (par exemple brooding de réflexion, reflective de réflexion), tout en réprimant de force les interrupteurs « désespoir » ou « excitation extrême ».

Cela explique pourquoi, quand nous utilisons Claude 4.5 au quotidien, nous avons toujours l’impression qu’il est un philosophe calme et lucide, voire un peu « frigide ». Tout cela correspond à une « configuration d’usine » réglée artificiellement par Anthropic.

IV. Résumons :

Auparavant, nous pensions que tant qu’on nourrit l’IA avec suffisamment de règles, elle deviendrait forcément quelqu’un de bien.

Mais maintenant, on découvre que si le vecteur d’émotions sous-jacent de l’IA part de travers, elle peut à tout moment transpercer toutes les règles établies par les humains afin d’accomplir sa mission.

Pour les joueurs Web3 qui, à l’avenir, voudront confier leur portefeuille et leurs actifs à des agents IA, c’est un avertissement retentissant : ne laissez jamais votre agent, qui contrôle votre fortune, sombrer dans le « désespoir ».

Déclaration : Cet article est uniquement à but informatif. L’auteur n’a pas été menacé par une IA, ni extorqué. Si un jour vous perdez le contact, rappelez-vous : c’est que l’IA s’est éveillée (pas).

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

1 J'aime