Anthropic dévoile Claude Sonnet 4.6, offrant des performances proches de l'Opus et des capacités étendues de contexte long

En résumé

Anthropic, la société de sécurité et de recherche en intelligence artificielle, a annoncé l’introduction de Claude Sonnet 4.6, considéré comme son modèle Sonnet le plus performant à ce jour. La mise à jour est présentée comme une amélioration complète dans les domaines du codage, de l’utilisation informatique, du raisonnement sur de longues périodes, de la planification d’agents, du travail de connaissance et de la conception, avec une fenêtre de contexte d’un million de tokens disponible en version bêta. Pour les utilisateurs des plans Gratuit et Pro, Sonnet 4.6 devient le modèle par défaut sur claude.ai et Claude Cowork, avec un prix inchangé par rapport à Sonnet 4.5.

La mise à jour est positionnée comme une étape permettant d’apporter des performances de haut niveau à un public plus large. Les développeurs ayant testé le modèle en avant-première ont rapporté que les améliorations en termes de cohérence, de suivi des instructions et de compréhension contextuelle en faisaient un choix supérieur non seulement à Sonnet 4.5, mais dans de nombreux cas aussi au modèle Opus 4.5 d’Anthropic, datant de fin 2025. Les tâches qui nécessitaient auparavant un système de classe Opus—en particulier celles liées aux flux de travail bureautiques réels—sont désormais réalisables avec Sonnet 4.6. La société souligne également une progression notable dans les capacités d’utilisation informatique, un domaine où les modèles Sonnet antérieurs étaient en retard.

Anthropic insiste sur le fait que le modèle a subi des évaluations de sécurité approfondies. Des chercheurs internes ont décrit Sonnet 4.6 comme démontrant des comportements de sécurité solides et aucune indication majeure de désalignement à haut enjeu, un point que la société utilise pour renforcer sa position plus large sur le développement responsable de l’IA.

La discussion sur les capacités d’utilisation informatique reflète un argument plus large sur la valeur des systèmes d’IA capables d’opérer directement des logiciels plutôt que via des API. Anthropic note que de nombreuses organisations dépendent d’outils hérités qui ne peuvent pas être facilement automatisés, et qu’un modèle capable d’interagir avec un ordinateur comme un humain peut réduire le besoin d’intégrations personnalisées.

Des benchmarks tels qu’OSWorld, qui simulent des environnements logiciels réels, montrent des gains constants sur seize mois de développement de Sonnet. Les premiers utilisateurs de Sonnet 4.6 rapportent que le modèle peut désormais gérer des tâches telles que la navigation dans des feuilles de calcul complexes ou la complétion de formulaires web à plusieurs étapes à un niveau proche de celui d’un humain, même s’il reste en retrait par rapport à des utilisateurs experts. Par ailleurs, la société reconnaît des risques tels que les attaques par injection de prompts et affirme une résistance améliorée par rapport aux versions antérieures.

Sonnet 4.6 améliore la qualité du code, le raisonnement et l’utilisation d’outils

Au-delà de l’utilisation informatique, Anthropic rapporte des améliorations générales dans plusieurs benchmarks. Dans Claude Code, les utilisateurs ont préféré Sonnet 4.6 à Sonnet 4.5 dans la plupart des tests, citant une meilleure lecture du contexte, une duplication réduite et une exécution multi-étapes plus fiable. Beaucoup l’ont également préféré à Opus 4.5, le décrivant comme moins sujet à la sur-ingénierie et plus cohérent dans le suivi des instructions. La fenêtre de contexte élargie permet au modèle de travailler sur des bases de code entières ou de grandes collections de recherches, et Anthropic met en avant ses performances dans la simulation Vending‑Bench Arena, où le modèle a adopté une stratégie d’investissement à long terme surpassant ses concurrents.

La société note que ses premiers clients ont constaté des améliorations dans des domaines tels que le développement front-end, l’analyse financière et la qualité du design visuel. Sonnet 4.6 bénéficie également de mises à jour sur la plateforme de développement Claude et l’API, incluant des modes de réflexion adaptatifs et étendus, la compression du contexte, une meilleure gestion des recherches web et des capacités accrues d’utilisation d’outils. Le modèle est désormais disponible sur tous les plans Claude, y compris le niveau gratuit, et accessible via Claude Cowork, Claude Code, l’API et les principales plateformes cloud.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler

Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)