Gate 廣場創作者新春激勵正式開啟,發帖解鎖 $60,000 豪華獎池
如何參與:
報名活動表單:https://www.gate.com/questionnaire/7315
使用廣場任意發帖小工具,搭配文字發布內容即可
豐厚獎勵一覽:
發帖即可可瓜分 $25,000 獎池
10 位幸運用戶:獲得 1 GT + Gate 鸭舌帽
Top 發帖獎勵:發帖與互動越多,排名越高,贏取 Gate 新年周邊、Gate 雙肩包等好禮
新手專屬福利:首帖即得 $50 獎勵,繼續發帖还能瓜分 $10,000 新手獎池
活動時間:2026 年 1 月 8 日 16:00 – 1 月 26 日 24:00(UTC+8)
詳情:https://www.gate.com/announcements/article/49112
DeepSeek 的 mHC 架構解決超連接網路設計中的核心挑戰
在朝著改善深度學習模型架構的重要方向邁出一大步,DeepSeek 公布了關於 Manifold-Constrained Hyperconnections (mHC) 的研究,這是一個旨在克服現有超連接網絡 (HC) 關鍵限制的解決方案。該研究突顯了傳統 HC 系統在訓練不穩定性和擴展性受限方面的困難,這些問題根源於網絡運作過程中身份映射特性的退化。
mHC 背後的技術創新
mHC 框架通過將超連接網絡中的殘差連接空間投影到特定的流形結構上來運作。這種幾何方法成功地恢復了在傳統 HC 設計中被破壞的身份映射特性。除了這一流形映射策略外,DeepSeek 還融入了嚴格的基礎設施優化,旨在在整個訓練過程中保持計算效率。
其結果是雙重優勢:該架構在性能指標上顯著提升,同時實現了更優越的擴展能力——這兩個指標在神經網絡設計中通常存在權衡。
對基礎模型的更廣泛影響
DeepSeek 將 mHC 定位為一個可擴展的框架,能夠靈活地適應並整合到現有的超連接範式中。團隊預計,該架構將深化該領域對神經網絡拓撲設計原則的理解,並可能在未來幾年內重塑基礎模型的演進方式。
該研究團隊包括謝振達、韋一軒和曹歡奇作為主要作者,梁文峰則為合作貢獻者。這項工作代表了 DeepSeek 在推動神經架構設計和模型優化策略方面的又一進展。