Anthropic 发布 Claude Sonnet 4.6,提供接近杰作的性能和扩展的长上下文能力

简要介绍

Anthropic的Claude Sonnet 4.6引入了重大升级,性能接近Opus水平,增强了编码和计算机使用能力,并为所有用户提供了一个一百万令牌的上下文窗口,价格与之前的版本相同。

Anthropic Unveils Claude Sonnet 4.6, Delivering Near‑Opus Performance And Expanded Long‑Context Capabilities

人工智能安全与研究公司Anthropic宣布推出了Claude Sonnet 4.6,被描述为其迄今为止最强大的Sonnet模型。此次发布被定位为在编码、计算机使用、长上下文推理、代理规划、知识工作和设计方面的全面升级,提供了一个测试中的一百万令牌上下文窗口。对于免费和专业计划的用户,Sonnet 4.6成为claude.ai和Claude Cowork的默认模型,价格保持不变。

此次更新被视为向更广泛用户群体提供高端性能的迈进。早期测试该模型的开发者报告称,Sonnet 4.6在一致性、指令遵循和上下文理解方面的改进,使其不仅优于Sonnet 4.5,在许多情况下甚至优于Anthropic在2025年末推出的更先进的Opus 4.5模型。以前需要Opus级系统完成的任务——尤其是与实际办公流程相关的任务——现在都可以由Sonnet 4.6完成。公司还强调了计算机使用能力的显著提升,这是早期Sonnet模型落后的一个领域。

Anthropic强调,该模型经过了广泛的安全评估。内部研究人员描述Sonnet 4.6表现出强大的安全行为,没有出现重大高风险偏差的迹象,这一点被公司用来强化其在负责任AI开发方面的整体立场。

关于计算机使用能力的讨论反映了对AI系统直接操作软件而非通过API的价值的更广泛论点。Anthropic指出,许多组织依赖难以自动化的遗留工具,而能够像人类一样与计算机交互的模型可以减少对定制集成的需求。

如OSWorld等基准测试模拟真实软件环境,显示出Sonnet开发16个月以来的稳步提升。Sonnet 4.6的早期用户报告称,该模型现在可以处理复杂电子表格导航或完成多步骤网页表单等任务,水平接近人类,即使仍略逊于专家用户。同时,公司也承认存在提示注入攻击等风险,并声称其抗攻击能力优于早期版本。

Sonnet 4.6提升代码质量、推理能力和工具使用

除了计算机使用能力外,Anthropic还报告了在多个基准测试中的广泛改进。在Claude Code中,用户在大多数测试中更喜欢Sonnet 4.6而非Sonnet 4.5,原因包括更好的上下文理解、减少重复和更可靠的多步骤执行。许多用户也更偏好它而非Opus 4.5,认为其过度工程的倾向较少,更能稳定遵循指令。扩展的上下文窗口使模型能够处理整个代码库或大型研究资料集,Anthropic还强调其在Vending-Bench Arena模拟中的表现,模型采用了长期投资策略,超越了竞争对手。

公司指出,早期客户在前端开发、财务分析和视觉设计质量等方面都看到了改进。Sonnet 4.6还带来了Claude开发平台和API的更新,包括自适应和扩展思考模式、上下文压缩、改进的网页搜索处理和扩展的工具使用能力。该模型现已在所有Claude计划中提供,包括免费层,并可通过Claude Cowork、Claude Code、API和主要云平台访问。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)