Qwen 推出新一代视觉-语言模型，提升编码、推理和多模态AI性能

2026-02-16 14:36:46

简要概述

Qwen团队已推出开源的Qwen3.5-397B-A17B模型，在多模态性能、强化学习和训练效率方面实现了重大突破，作为推动更强大、通用AI代理的更广泛努力的一部分。

阿里云的Qwen团队推出了其新系列Qwen3.5的首款模型，发布了开源的Qwen3.5-397B-A17B。

该模型定位为原生视觉-语言系统，在推理、编码、代理任务和多模态理解方面表现出色，标志着公司大规模AI开发的重大进展。

该模型采用混合架构，结合了通过门控Delta网络实现的线性注意力和稀疏专家混合设计，在推理过程中实现高效率。尽管整个系统包含3970亿参数，但每次前向传播只激活170亿参数，既保持了高性能，又降低了计算成本。此次发布还将语言和方言覆盖范围从119扩展到201，增强了全球用户和开发者的可访问性。

Qwen3.5在强化学习和预训练效率方面实现重大飞跃

Qwen3.5系列在Qwen3基础上取得了显著提升，主要得益于在各种环境中大规模强化学习的扩展。团队并未仅优化狭窄的基准测试，而是专注于增加任务难度和泛化能力，从而在BFCL‑V4、VITA‑Bench、DeepPlanning、Tool‑Decathlon和MCP‑Mark等评估中表现出色。更多结果将在即将发布的技术报告中详细介绍。

预训练方面的改进涵盖性能、效率和多样性。Qwen3.5在更大规模的视觉-文本数据上进行训练，强化了多语言、STEM和推理内容，使其能够达到早期万亿参数模型的性能。架构升级包括更高稀疏度的MoE、混合注意力、稳定性优化和多Token预测，显著提升了吞吐量，特别是在32k和256k长上下文长度下。模型的多模态能力通过早期文本-视觉融合和扩展的数据集得到增强，涵盖图像、STEM材料和视频，同时更大的250k词汇表提升了大部分语言的编码和解码效率。

Qwen3.5背后的基础设施设计用于高效的多模态训练。异构并行策略将视觉和语言组件分离，避免瓶颈，而稀疏激活技术实现了几乎满载的吞吐量，即使在混合文本-图像-视频工作负载下也能保持高效。原生FP8流水线大幅度减少激活内存约一半，并将训练速度提升超过10%，在大规模Token规模下保持稳定。

强化学习由一个完全异步的框架支持，能够处理各种规模的模型，提升硬件利用率、负载平衡和故障恢复能力。采用FP8端到端训练、投机解码、回滚路由重放和多轮回滚锁定等技术，有助于保持一致性并减少梯度陈旧。系统设计支持大规模代理工作流程，实现无缝多轮交互和跨环境的广泛泛化。

用户可以通过Qwen Chat与Qwen3.5互动，提供自动、思考和快速三种模式，适应不同任务需求。模型还可通过阿里云的ModelStudio使用，用户可以通过简单参数启用推理、网页搜索和代码执行等高级功能。与第三方编码工具的集成，使开发者能够以最小摩擦将Qwen3.5融入现有工作流程。

据Qwen团队介绍，Qwen3.5通过其混合架构和原生多模态推理，为通用数字代理奠定了基础。未来的开发将专注于系统级集成，包括跨会话学习的持久记忆、面向现实世界交互的实体接口、自我导向的改进机制以及面向长期自主运行的经济感知。目标是超越任务特定的助手，打造具有连贯性、持久性，能够管理复杂、多日目标并具有可靠人类对齐判断的智能代理。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

0/400

暂无评论

热门 Gate Fun
查看更多

1
G
GLG
市值:$0.1持有人数:1
0.00%
2
HI
Hi
市值:$0.1持有人数:1
0.00%
3
踏马迎春
AFY
市值:$2486.2持有人数:1
0.00%
4
金龙马
DNB
市值:$2745.97持有人数:2
1.76%
5
BNB
BNB
市值:$0.1持有人数:1
0.00%

Qwen 推出新一代视觉-语言模型，提升编码、推理和多模态AI性能

Qwen3.5在强化学习和预训练效率方面实现重大飞跃

热门话题

Gate广场发帖领五万美金红包

美国核心CPI创四年新低

比特币下一步怎么走？

Gate春节赛马红包嘉年华

我看好的AIAgent

热门 Gate Fun

G

GLG

HI

Hi

踏马迎春

AFY

金龙马

DNB

BNB

BNB

置顶