福利加碼,Gate 廣場明星帶單交易員二期招募開啟!
入駐發帖 · 瓜分 $20,000 月度獎池 & 千萬級流量扶持!
如何參與:
1️⃣ 報名成為跟單交易員:https://www.gate.com/copytrading/lead-trader-registration/futures
2️⃣ 報名活動:https://www.gate.com/questionnaire/7355
3️⃣ 入駐 Gate 廣場,持續發布交易相關原創內容
豐厚獎勵等你拿:
首帖福利:首發優質內容即得 $30 跟單体验金
雙周內容激勵:每雙周瓜分 $500U 內容獎池
排行榜獎勵:Top 10 交易員額外瓜分 $20,000 登榜獎池
流量扶持:精選帖推流、首頁推薦、周度明星交易員曝光
活動時間:2026 年 2 月 12 日 18:00 – 2 月 24 日 24:00(UTC+8)
詳情:https://www.gate.com/announcements/article/49849
Qwen 推出新一代視覺-語言模型 以提升編碼、推理與多模態 AI 表現
簡要概述
Qwen 團隊已推出開放式權重的 Qwen3.5‑397B‑A17B 模型,在多模態性能、強化學習和訓練效率方面取得重大進展,作為推動更強大、通用 AI 代理的更廣泛努力的一部分。
阿里雲的 Qwen 團隊推出了其新系列 Qwen3.5 的首款模型,揭示了開放式權重的 Qwen3.5‑397B‑A17B
該模型定位為原生視覺-語言系統,在推理、編碼、代理任務和多模態理解方面都展現出強勁的性能,反映出公司在大規模 AI 發展方面的重大進步
該模型基於一種混合架構,結合了通過 Gated Delta Networks 實現的線性注意力與稀疏專家混合設計,使推理過程中具有高效率。儘管整個系統包含 3970 億參數,但每次前向傳播只激活 170 億,這使其能在保持高能力的同時降低計算成本。此次發布還擴展了語言和方言的覆蓋範圍,從 119 種增加到 201 種,進一步提升全球用戶和開發者的可及性。
Qwen3.5 在強化學習與預訓練效率方面取得重大突破
Qwen3.5 系列在 Qwen3 的基礎上實現了顯著提升,主要得益於在多種環境中大規模擴展的強化學習。團隊並未僅僅針對狹窄的基準進行優化,而是專注於提升任務難度和泛化能力,從而在 BFCL‑V4、VITA‑Bench、DeepPlanning、Tool‑Decathlon 和 MCP‑Mark 等評估中展現出更佳的代理性能。更多結果將在即將發布的技術報告中詳細說明。
預訓練方面的改進涵蓋能耗、效率和多功能性。Qwen3.5 在大量視覺-文本數據上進行訓練,並強化多語言、STEM 和推理內容,使其性能能媲美早期的萬億參數模型。架構升級包括更高稀疏度的 MoE、混合注意力、穩定性優化和多標記預測,帶來了在長達 32k 和 256k 令牌的擴展上下文長度下的產能提升。模型的多模態能力通過早期文本-視覺融合和擴展的數據集(涵蓋圖像、STEM 資料和視頻)得到強化,同時更大的 25 萬詞彙表提升了多數語言的編碼和解碼效率。
支撐 Qwen3.5 的基礎設施專為高效多模態訓練而設計。異構並行策略將視覺和語言組件分離,避免瓶頸,而稀疏激活則使混合文本-圖像-視頻工作負載下幾乎達到最大產能。原生 FP8 管道能將激活記憶體大約減半,並將訓練速度提升超過 10%,在大規模令牌長度下仍保持穩定。
強化學習由一個完全異步的框架支持,能處理各種規模的模型,提升硬體利用率、負載平衡和故障恢復能力。採用 FP8 全流程訓練、推測解碼、滾動路由重放和多回合滾動鎖定等技術,有助於保持一致性並降低梯度過時的情況。系統設計支持大規模代理流程,實現無縫的多回合交互和跨環境的廣泛泛化。
用戶可以通過 Qwen Chat 與 Qwen3.5 互動,根據任務不同提供自動、思考和快速模式。模型也可在阿里雲的 ModelStudio 上使用,通過簡單參數啟用推理、網頁搜索和代碼執行等高級功能。與第三方編碼工具的集成,使開發者能以最小摩擦將 Qwen3.5 融入現有工作流程。
據 Qwen 團隊表示,Qwen3.5 通過其混合架構和原生多模態推理,為通用數字代理奠定了基礎。未來的開發將聚焦於系統層面的整合,包括持久記憶以實現跨會話學習、實體界面以進行現實世界交互、自我導向的改進機制,以及具備經濟意識的長期自主運行。目標是超越任務專用助手,打造具有連貫性、持久性,能管理複雜多日目標並具有可靠人類對齊判斷的智能代理。