通义把Vibe Coding塞进全模态,Qwen3.5-Omni称拿下215项SOTA

区块律动

据 1M AI News 监测,通义实验室发布全模态模型 Qwen3.5-Omni,支持文本、图片、音频和音视频输入,并可生成带时间戳的细粒度音视频 Caption。官方称,Qwen3.5-Omni-Plus 在音频及音视频分析、推理、对话、翻译等任务上拿下 215 项 SOTA,相关能力超过 Gemini-3.1-Pro。

这次最特别的增量不是榜单,而是「自然涌现的 Audio-Visual Vibe Coding 能力」。通义称,模型未经过专门训练,已经能根据音视频指令直接生成可运行代码。官方还称,该模型支持 256K 上下文、113 种语言识别,可处理 10 小时音频或 1 小时视频,并原生支持 WebSearch 和复杂 Function Call。

Qwen3.5-Omni 延续 Thinker-Talker 分工架构,两部分都升级为 Hybrid-Attention MoE。通义已通过阿里云百炼提供 Plus、Flash、Light 三种尺寸,并上线实时版本 Qwen3.5-Omni-Plus-Realtime。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
暂无评论