福利加码,Gate 广场明星带单交易员二期招募开启!
入驻发帖 · 瓜分 $20,000 月度奖池 & 千万级流量扶持!
如何参与:
1️⃣ 报名成为跟单交易员:https://www.gate.com/copytrading/lead-trader-registration/futures
2️⃣ 报名活动:https://www.gate.com/questionnaire/7355
3️⃣ 入驻 Gate 广场,持续发布交易相关原创内容
丰厚奖励等你拿:
首帖福利:首发优质内容即得 $30 跟单体验金
双周内容激励:每双周瓜分 $500U 内容奖池
排行榜奖励:Top 10 交易员额外瓜分 $20,000 登榜奖池
流量扶持:精选帖推流、首页推荐、周度明星交易员曝光
活动时间:2026 年 2 月 12 日 18:00 – 2 月 24 日 24:00(UTC+8)
详情:https://www.gate.com/announcements/article/49849
Qwen 推出新一代视觉-语言模型,提升编码、推理和多模态AI性能
简要概述
Qwen团队已推出开源的Qwen3.5-397B-A17B模型,在多模态性能、强化学习和训练效率方面实现了重大突破,作为推动更强大、通用AI代理的更广泛努力的一部分。
阿里云的Qwen团队推出了其新系列Qwen3.5的首款模型,发布了开源的Qwen3.5-397B-A17B。
该模型定位为原生视觉-语言系统,在推理、编码、代理任务和多模态理解方面表现出色,标志着公司大规模AI开发的重大进展。
该模型采用混合架构,结合了通过门控Delta网络实现的线性注意力和稀疏专家混合设计,在推理过程中实现高效率。尽管整个系统包含3970亿参数,但每次前向传播只激活170亿参数,既保持了高性能,又降低了计算成本。此次发布还将语言和方言覆盖范围从119扩展到201,增强了全球用户和开发者的可访问性。
Qwen3.5在强化学习和预训练效率方面实现重大飞跃
Qwen3.5系列在Qwen3基础上取得了显著提升,主要得益于在各种环境中大规模强化学习的扩展。团队并未仅优化狭窄的基准测试,而是专注于增加任务难度和泛化能力,从而在BFCL‑V4、VITA‑Bench、DeepPlanning、Tool‑Decathlon和MCP‑Mark等评估中表现出色。更多结果将在即将发布的技术报告中详细介绍。
预训练方面的改进涵盖性能、效率和多样性。Qwen3.5在更大规模的视觉-文本数据上进行训练,强化了多语言、STEM和推理内容,使其能够达到早期万亿参数模型的性能。架构升级包括更高稀疏度的MoE、混合注意力、稳定性优化和多Token预测,显著提升了吞吐量,特别是在32k和256k长上下文长度下。模型的多模态能力通过早期文本-视觉融合和扩展的数据集得到增强,涵盖图像、STEM材料和视频,同时更大的250k词汇表提升了大部分语言的编码和解码效率。
Qwen3.5背后的基础设施设计用于高效的多模态训练。异构并行策略将视觉和语言组件分离,避免瓶颈,而稀疏激活技术实现了几乎满载的吞吐量,即使在混合文本-图像-视频工作负载下也能保持高效。原生FP8流水线大幅度减少激活内存约一半,并将训练速度提升超过10%,在大规模Token规模下保持稳定。
强化学习由一个完全异步的框架支持,能够处理各种规模的模型,提升硬件利用率、负载平衡和故障恢复能力。采用FP8端到端训练、投机解码、回滚路由重放和多轮回滚锁定等技术,有助于保持一致性并减少梯度陈旧。系统设计支持大规模代理工作流程,实现无缝多轮交互和跨环境的广泛泛化。
用户可以通过Qwen Chat与Qwen3.5互动,提供自动、思考和快速三种模式,适应不同任务需求。模型还可通过阿里云的ModelStudio使用,用户可以通过简单参数启用推理、网页搜索和代码执行等高级功能。与第三方编码工具的集成,使开发者能够以最小摩擦将Qwen3.5融入现有工作流程。
据Qwen团队介绍,Qwen3.5通过其混合架构和原生多模态推理,为通用数字代理奠定了基础。未来的开发将专注于系统级集成,包括跨会话学习的持久记忆、面向现实世界交互的实体接口、自我导向的改进机制以及面向长期自主运行的经济感知。目标是超越任务特定的助手,打造具有连贯性、持久性,能够管理复杂、多日目标并具有可靠人类对齐判断的智能代理。