通义把Vibe Coding塞进全模态，Qwen3.5-Omni称拿下215项SOTA

区块律动

2026-03-30 14:06:38

据 1M AI News 监测，通义实验室发布全模态模型 Qwen3.5-Omni，支持文本、图片、音频和音视频输入，并可生成带时间戳的细粒度音视频 Caption。官方称，Qwen3.5-Omni-Plus 在音频及音视频分析、推理、对话、翻译等任务上拿下 215 项 SOTA，相关能力超过 Gemini-3.1-Pro。

这次最特别的增量不是榜单，而是「自然涌现的 Audio-Visual Vibe Coding 能力」。通义称，模型未经过专门训练，已经能根据音视频指令直接生成可运行代码。官方还称，该模型支持 256K 上下文、113 种语言识别，可处理 10 小时音频或 1 小时视频，并原生支持 WebSearch 和复杂 Function Call。

Qwen3.5-Omni 延续 Thinker-Talker 分工架构，两部分都升级为 Hybrid-Attention MoE。通义已通过阿里云百炼提供 Plus、Flash、Light 三种尺寸，并上线实时版本 Qwen3.5-Omni-Plus-Realtime。

免责声明：本页面信息可能来自第三方，不代表 Gate 的观点或意见。页面显示的内容仅供参考，不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证，对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为，价格波动剧烈，您可能损失全部投资本金。请充分了解相关风险，并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明。

0/400

暂无评论