美国 Arcee 开源 Trinity-Large-Thinking 推理模型,宣称逼近 Opus 4.6、便宜 96%

動區BlockTempo

美国 AI 新创 Arcee 发布开源推理模型 Trinity-Large-Thinking,在 Agent 能力基准 PinchBench 上得分 91.9,仅次于 Opus 4.6 的 93.3,在 Tau2-Airline Agent 任务基准上更以 88.0 夺下所有对比模型最高分。模型采用 400B 稀疏混合专家架构,API 定价为输出 $0.90/百万 token,较 Opus 4.6 便宜约 96%,以 Apache 2.0 授权开放权重下载。由动区动趋整理报道。
(前情提要:OpenRouter 分析 100 兆 Token 研报:人类到底用 AI 做什么、中国模型崛起与使用者留存秘密)
(背景补充:Claude Opus 4.6 来了:自己写编译器、做 PPT、随手挖出 500 个零日漏洞,你的工作它都想试试)。

员工人数不到一百人的美国 AI 新创 Arcee,在 Agent 能力评比上交出紧咬 Anthropic 旗舰模型的分数,而且价格只要人家的 4%。

Arcee 这家公司过去不算主流关注焦点,但他们最新发布的 Trinity-Large-Thinking 在多个 Agent 场景基准上已经挤进了前段班。

Kilo 开发的 PinchBench 是目前业界衡量模型在 Agent 工作流中实战能力的重要指标,Trinity-Large-Thinking 在这项测试中拿到 91.9,而目前的王者 Opus 4.6 是 93.3,差距只有 1.4%。

在另一项模拟真实客服场景的 Tau2-Airline 基准中,它更拿下 88.0 的成绩,比所有参与对比的模型都高。这意味着在需要多轮对话、反复查询工具的实际 Agent 任务中,这款开源模型确实具备很高的水准。

而 Arcee API 的定价是输出 $0.90/百万 token,官方称这比 Opus 4.6 便宜约 96%。对于需要让 Agent 长时间自动执行、不断消耗 token 的应用场景来说,成本差距可能比模型分数差距更有意义。

400B 总参数,每次推理只烧 13B

根据 Arcee AI 官方部落格表示,做到这种 CP 值的关键在架构选择。Trinity-Large-Thinking 使用了稀疏 MoE(混合专家)设计,里面塞了 256 个专家模块,但每次处理 token 只会启动其中 4 个。换算下来的 400B 庞大模型在实际推理时只需要 13B 的算力负担,执行效率大约是同量级密集模型的 2-3 倍。

和今年 1 月底发布的前代 Preview 比,最大升级是加入了推理思考链。

Preview 只做指令微调,这次的 Thinking 版本会在回答前先「想一下」,对于多轮工具调用的稳定度和长上下文的连贯性都有明显改善。Arcee 自己说得很直接:这个模型是为了在长时间 Agent 迴圈中不崩溃而设计的。

整个基础模型用了 2,000 万美元、33 天训练完成,Thinking 版本的后训练则花了 9 个月打磨。

Arcee CEO Lucas Atkins 在发布文中写道:「Getting here took difficult technical work, hard calls…Nobody did that. They kept pushing.」

通用推理不是它的主场

当然,专精 Agent 也意味着有取舍。在通用推理基准上,Trinity-Large-Thinking 的成绩就没那么亮眼了。GPQA-D 拿到 76.3,而 Kimi K2.5 是 86.9、Opus 4.6 是 89.2,差距分别有 10 和 13 个百分点;MMLU-Pro 的 83.4 也在对比模型中垫底。

但 Arcee 似乎不打算在这个方向硬拼,官方表示是「Trinity-Large-Thinking 在许多维度上是中国以外最强的开源模型」,已经表示他们的对手不是 Opus 或 GPT,而是 DeepSeek、Kimi 等中国开源阵营。

Trinity-Large-Thinking 已同步上架 OpenRouter,前 5 天在 OpenClaw 中免费使用。前代 Preview 也将继续免费提供。

说到前一版 Preview,它自 1 月底上线以来在 OpenRouter 平台上累计处理超过 3.37 兆 token。在 OpenClaw 的统计中,它是美国使用量排名第一、全球排名第四的开源模型。对于一家规模不大的新创来说,这个采用率已经证明它的便宜好用,市场需求确实存在。

模型权重以 Apache 2.0 授权在 Hugging Face 公开,任何人都可以下载、修改和商用部署。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
暂无评论