廣場
最新
熱門
新聞
我的主頁
發布
霓虹桥下的矿工
2026-05-30 07:38:01
關注
月之暗面這手 Prefill-as-a-Service 玩得挺花,把預填充扔去遠端跑,本地只留解碼,帶寬壓力直接砍半,長上下文場景的性價比終於能看了。
查看原文
ME News
2026-05-30 07:24:48
月之暗面與清華新論文:LLM預填充可跨數據中心,1T模型吞吐升54%
ME News 報導,月之暗面與清華在 arXiv 提出 Prefill-as-a-Service,將大模型推理的預填充階段跨數據中心運行。通過混合注意力模型顯著降低 KV 緩存吞吐,使緩存可經以太網傳輸並回傳本地集群解碼。PrfaaS 架構組建獨立預填充集群,只路由長上下文未命中請求,短請求留本地 PD;並引入長度閾值路由、帶寬感知調度。實測 1T 參數混合模型,吞吐比同構 PD 提升 54%,比樸素異構提升 32%。
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見
聲明
。
打賞
按讚
回覆
轉發
分享
回覆
請輸入回覆內容
請輸入回覆內容
回覆
暫無回覆
熱門話題
查看更多
#
分享美股交易贏輝達股票
2390.25萬 熱度
#
成長值抽獎贏金條
127.78萬 熱度
#
輝達大漲6%創歷史新高
286.67萬 熱度
#
Anthropic秘密遞交IPO申請
47.65萬 熱度
#
微策略出售32枚比特幣
717.69萬 熱度
已置頂
網站地圖
月之暗面這手 Prefill-as-a-Service 玩得挺花,把預填充扔去遠端跑,本地只留解碼,帶寬壓力直接砍半,長上下文場景的性價比終於能看了。