革命性的一步 Deepseek:當技術改變遊戲規則 (12月1日)

Deepseek v3.2 發布今天成為主要熱點話題,並非沒有原因。公司展示的結果與行業領導者的最新封閉模型直接競爭,包括 gemini3.0。這無疑將 Deepseek 升級為開源的 SOTA,所有可衡量的指標都證明了這一地位。

這一突破究竟依靠什麼?

從技術角度來看,創新並不在於架構的革命性新穎。Deepseek 繼續應用 DSA,並持續投資於 post-training 階段,該階段佔據總計算預算的超過 10%。但公司似乎找到了最大化這一方法效率的方法。利用 v3.2 實驗版本的全部潛力,團隊取得了與「計算能力天花板」的說法直接矛盾的成果。

Deepseek 主要研究員之一的 Zibin Gou 表示了一個有趣的假設:如果 Gemini3 在預訓練方面展現了能力,那麼 v3.2 更專注於擴展增強學習 (RL) 和決策鏈 (CoT)。這並不意味著計算能力的通貨膨脹——相反,這在推理階段需要更高的成本。關鍵思想是:擴展應該在所有層面持續進行,對其界限的波動只是噪音。

市場背景與實際價值

然而,這裡出現了一個非常關鍵的點。Deepseek 自認在此版本中,令牌的使用效率「較差」(inferior),與其他方案相比。更甚者,該模型的特殊版本使用了更多的令牌來達到相同的效果。這直接影響了實際部署的成本。

分析師指出,對計算能力的需求仍然是根本未盡的。真正的問題不在於計算量減少,而在於其成本仍然過高,難以大規模商業化部署。只有在硬體和模型架構方面取得革命性突破,才能徹底改變這一局面。

對大玩家意味著什麼?

對於像 OpenAI 這樣的公司,將競爭優勢建立在「模型能力」作為主要「護城河」的策略,這次 Deepseek 的發布是一個嚴重的警訊。開源替代方案已經逼近封閉解,削弱了封閉開發的技術優勢。

12 月 1 日:市場的完美風暴?

有趣的是,這個版本正好在 ChatGPT 上線三周年之際發布。今晚的市場可能會充滿波動:來自日本的幾個不可預測的宏觀因素、BTC 的動向,以及有關 Amazon re:Invent 的傳聞,可能成為下一波變革的催化劑。分析師已經開始預測,市場將多麼激烈地回應今天所象徵的競爭。

接下來:v3 會被榨乾嗎?

最後,一些研究圈的參與者已開始質疑:v3 版本是否已經被榨乾,到了極限?是否該考慮 v4 了?如果 Deepseek 花了一年時間僅在優化 v3,這反映出公司工作的深度與雄心。AI 領域的變動顯然在加快。

BTC-0.96%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)