Qwen 推出新一代视觉-语言模型,提升编码、推理和多模态AI性能

简要概述

Qwen团队已推出开源的Qwen3.5-397B-A17B模型,在多模态性能、强化学习和训练效率方面实现了重大突破,作为推动更强大、通用AI代理的更广泛努力的一部分。

Qwen Rolls Out New Vision‑Language Model To Advance Coding, Reasoning, And Multimodal AI Performance

阿里云的Qwen团队推出了其新系列Qwen3.5的首款模型,发布了开源的Qwen3.5-397B-A17B。

该模型定位为原生视觉-语言系统,在推理、编码、代理任务和多模态理解方面表现出色,标志着公司大规模AI开发的重大进展。

该模型采用混合架构,结合了通过门控Delta网络实现的线性注意力和稀疏专家混合设计,在推理过程中实现高效率。尽管整个系统包含3970亿参数,但每次前向传播只激活170亿参数,既保持了高性能,又降低了计算成本。此次发布还将语言和方言覆盖范围从119扩展到201,增强了全球用户和开发者的可访问性。

Qwen3.5在强化学习和预训练效率方面实现重大飞跃

Qwen3.5系列在Qwen3基础上取得了显著提升,主要得益于在各种环境中大规模强化学习的扩展。团队并未仅优化狭窄的基准测试,而是专注于增加任务难度和泛化能力,从而在BFCL‑V4、VITA‑Bench、DeepPlanning、Tool‑Decathlon和MCP‑Mark等评估中表现出色。更多结果将在即将发布的技术报告中详细介绍。

预训练方面的改进涵盖性能、效率和多样性。Qwen3.5在更大规模的视觉-文本数据上进行训练,强化了多语言、STEM和推理内容,使其能够达到早期万亿参数模型的性能。架构升级包括更高稀疏度的MoE、混合注意力、稳定性优化和多Token预测,显著提升了吞吐量,特别是在32k和256k长上下文长度下。模型的多模态能力通过早期文本-视觉融合和扩展的数据集得到增强,涵盖图像、STEM材料和视频,同时更大的250k词汇表提升了大部分语言的编码和解码效率。

Qwen3.5背后的基础设施设计用于高效的多模态训练。异构并行策略将视觉和语言组件分离,避免瓶颈,而稀疏激活技术实现了几乎满载的吞吐量,即使在混合文本-图像-视频工作负载下也能保持高效。原生FP8流水线大幅度减少激活内存约一半,并将训练速度提升超过10%,在大规模Token规模下保持稳定。

强化学习由一个完全异步的框架支持,能够处理各种规模的模型,提升硬件利用率、负载平衡和故障恢复能力。采用FP8端到端训练、投机解码、回滚路由重放和多轮回滚锁定等技术,有助于保持一致性并减少梯度陈旧。系统设计支持大规模代理工作流程,实现无缝多轮交互和跨环境的广泛泛化。

用户可以通过Qwen Chat与Qwen3.5互动,提供自动、思考和快速三种模式,适应不同任务需求。模型还可通过阿里云的ModelStudio使用,用户可以通过简单参数启用推理、网页搜索和代码执行等高级功能。与第三方编码工具的集成,使开发者能够以最小摩擦将Qwen3.5融入现有工作流程。

据Qwen团队介绍,Qwen3.5通过其混合架构和原生多模态推理,为通用数字代理奠定了基础。未来的开发将专注于系统级集成,包括跨会话学习的持久记忆、面向现实世界交互的实体接口、自我导向的改进机制以及面向长期自主运行的经济感知。目标是超越任务特定的助手,打造具有连贯性、持久性,能够管理复杂、多日目标并具有可靠人类对齐判断的智能代理。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
  • 热门 Gate Fun

    查看更多
  • 市值:$0.1持有人数:1
    0.00%
  • 市值:$0.1持有人数:1
    0.00%
  • 市值:$2486.2持有人数:1
    0.00%
  • 市值:$2745.97持有人数:2
    1.76%
  • 市值:$0.1持有人数:1
    0.00%
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)