NVIDIA 260 ล้านดอลลาร์บัญชีการจัดสรรสำหรับ AI โอเพนซอร์ส Nemotron 3 Super ท้าทายโมเดลของจีน

MarketWhisper

輝達發布Nemotron 3 Super

NVIDIA ได้เปิดตัว Nemotron 3 Super อย่างเป็นทางการในวันพฤหัสบดี ซึ่งเป็นโมเดล AI แบบเปิดที่มีพารามิเตอร์รวม 120 พันล้านตัว ซึ่งได้รับการปรับแต่งอย่างลึกซึ้งเพื่อรองรับตัวแทน AI อิสระและงานที่ต้องใช้บริบทยาวเป็นพิเศษ NVIDIA ได้ประกาศแผนกลยุทธ์ในการลงทุน 26 พันล้านดอลลาร์ในช่วงห้าปีเพื่อสร้างโมเดล AI แบบเปิด ซึ่งเป็นการตอบสนองโดยตรงต่อการเติบโตอย่างรวดเร็วของโมเดลโอเพนซอร์สของจีนในตลาดโลก

โครงสร้างทางเทคนิคของ Nemotron 3 Super: การผสมผสานอย่างลึกซึ้งของสามองค์ประกอบที่หายาก

แกนหลักของการออกแบบ Nemotron 3 Super คือการแก้ปัญหาที่สำคัญในระบบหลายเอเจนต์—ทุกครั้งที่เรียกใช้เครื่องมือ กระบวนการคิด หรือบริบทชิ้นส่วน จะต้องส่งข้อมูลจำนวนมากซ้ำใหม่ตั้งแต่ต้น ซึ่งทำให้ต้นทุนพุ่งสูงและโมเดลเบี่ยงเบนจากความคาดหวัง NVIDIA ได้รวมองค์ประกอบสามอย่างที่แทบไม่เคยปรากฏร่วมกันในโครงสร้างเดียวกัน:

  • ชั้นสถานะ Mamba-2 (Mamba-2 State Space Layers) ซึ่งเป็นทางเลือกแทนกลไกความสนใจ (attention mechanism) ที่มีความเร็วสูงขึ้นและประหยัดหน่วยความจำมากขึ้นเมื่อจัดการกับลำดับคำยาว
  • ชั้นความสนใจแบบ Transformer เพื่อให้แน่ใจว่าข้อมูลถูกเรียกคืนอย่างแม่นยำ
  • การออกแบบ “ผู้เชี่ยวชาญแบบผสมซ่อน” (Latent MoE) ซึ่งบีบอัดคำในเส้นทางก่อนส่งไปยังโมดูลผู้เชี่ยวชาญ ทำให้โมเดลสามารถเปิดใช้งานโมดูลผู้เชี่ยวชาญสี่เท่าในต้นทุนการคำนวณเท่าเดิม

โมเดลนี้ใช้รูปแบบ NVFP4 ซึ่งเป็นเทคโนโลยีเฉพาะของ NVIDIA สำหรับการฝึกฝนล่วงหน้าแบบดั้งเดิม โดยเรียนรู้ในระดับความแม่นยำ 4 บิตตั้งแต่การอัปเดตกราเดียนครั้งแรก ซึ่งช่วยหลีกเลี่ยงความสูญเสียความแม่นยำที่เกิดจากการบีบอัดหลังการฝึกในระดับความละเอียดสูง หน้าต่างบริบทสามารถรองรับคำได้ถึง 1 ล้านคำ ซึ่งสามารถเก็บรักษาโค้ดฐานหรือคำศัพท์ภาษาอังกฤษประมาณ 750,000 คำได้อย่างครบถ้วน

มาตรฐานประสิทธิภาพและการใช้งานในองค์กร

ต่อไปนี้เป็นข้อมูลเปรียบเทียบสำคัญของ Nemotron 3 Super ในด้านความสามารถในการประมวลผล:

  • เทียบกับ OpenAI GPT-OSS 120B: เร็วขึ้น 2.2 เท่า
  • เทียบกับ Alibaba Qwen3.5-122B: เร็วขึ้น 7.5 เท่า
  • เทียบกับรุ่นก่อนหน้านี้ของตัวเอง: เพิ่มประสิทธิภาพโดยรวมมากกว่า 5 เท่า

NVIDIA ได้เปิดเผยกระบวนการฝึกอย่างครบถ้วน รวมถึงน้ำหนักโมเดลบน Hugging Face, ตัวอย่างข้อมูลฝึก 100,000 พันล้านชิ้น (ใช้ข้อมูลมากกว่า 250,000 พันล้านตัวในกระบวนการฝึก), ตัวอย่างหลังการฝึก 40 ล้านชิ้น และแผนการเรียนรู้เสริมที่ครอบคลุม 21 สภาพแวดล้อม ปัจจุบัน Perplexity, Palantir, Cadence และ Siemens ได้รวมโมเดลนี้เข้าเป็นส่วนหนึ่งของเวิร์กโฟลว์แล้ว

กลยุทธ์มูลค่า 26 พันล้านดอลลาร์: การตอบสนองต่อการเติบโตของโมเดลโอเพนซอร์สของจีนในระดับโลก

การเปิดตัว Nemotron 3 Super เป็นเพียงส่วนหนึ่งของกลยุทธ์ที่ใหญ่ขึ้นของ NVIDIA ซึ่งรองประธานฝ่ายวิจัยด้านการเรียนรู้เชิงลึก Bryan Catanzaro กล่าวกับนิตยสาร Wired ว่า บริษัทได้ฝึกโมเดลที่มีพารามิเตอร์ 550 พันล้านตัวไปแล้ว และแผนการลงทุนใน AI แบบเปิดที่มูลค่า 26 พันล้านดอลลาร์ในช่วงห้าปี ก็ได้ประกาศพร้อมกัน

บริบทเชิงกลยุทธ์นี้มีความเร่งด่วนสูง: จากการศึกษาของ OpenRouter และ Andreessen Horowitz พบว่า การใช้งานโมเดลโอเพนซอร์สของจีนในระดับโลกได้เพิ่มขึ้นจาก 1.2% ณ สิ้นปี 2024 เป็นประมาณ 30% ภายในสิ้นปี 2025; Alibaba Qwen ได้แซงหน้า Meta Llama กลายเป็นโมเดลโอเพนซอร์สที่ใช้งานมากที่สุด (ข้อมูลจาก Runpod) หากข้อมูลของ DeepSeek ซึ่งรายงานว่ารุ่นถัดไปของโมเดลนี้ถูกฝึกบนชิปของ Huawei จริง ก็จะเป็นแรงจูงใจสำคัญให้ผู้พัฒนาทั่วโลกหันมาใช้ฮาร์ดแวร์จีน ซึ่งเป็นสถานการณ์ที่ NVIDIA ต้องใช้กลยุทธ์โอเพนซอร์สเพื่อรับมืออย่างเร่งด่วน

คำถามที่พบบ่อย

Nemotron 3 Super มีข้อได้เปรียบอะไรเมื่อเทียบกับ Qwen และ GPT-OSS?

ในด้านความเร็วในการประมวลผล Nemotron 3 Super เร็วกว่า OpenAI GPT-OSS 120B ถึง 2.2 เท่า และเร็วกว่าจีน Qwen3.5-122B ถึง 7.5 เท่า จุดแตกต่างหลักอยู่ที่โครงสร้างผสมผสาน Mamba-Transformer MoE และการฝึกด้วย NVFP4 4 บิต ซึ่งช่วยให้สามารถเปิดใช้งานโมดูลผู้เชี่ยวชาญได้มากขึ้นในต้นทุนการคำนวณเท่ากัน ทำให้ประสิทธิภาพเพิ่มขึ้นมากกว่าห้่าเท่าเมื่อเทียบกับรุ่นก่อนหน้า

ทำไม NVIDIA ถึงลงทุน 26 พันล้านดอลลาร์ในโมเดล AI แบบเปิดในช่วงเวลานี้?

เหตุผลสำคัญสองประการคือ หนึ่ง เพื่อป้องกันไม่ให้ระบบนิเวศโมเดลโอเพนซอร์สของจีนและชิปของจีนสร้างวงจรปิด ซึ่งอาจลดบทบาทของ NVIDIA ในโครงสร้างพื้นฐาน AI ทั่วโลก และสอง เพื่อสร้างโมเดลโอเพนซอร์สที่ปรับแต่งให้เหมาะสมกับฮาร์ดแวร์ของ NVIDIA เอง ซึ่งจะช่วยสร้างความผูกพันในการซื้อชิปของบริษัทมากขึ้น การเติบโตของโมเดลโอเพนซอร์สของจีนที่เพิ่มขึ้นอย่างรวดเร็วก็เป็นแรงกดดันให้ NVIDIA ต้องดำเนินกลยุทธ์นี้อย่างเร่งด่วน

ข้อมูลการฝึกและน้ำหนักโมเดลของ Nemotron 3 Super ถูกเปิดเผยอย่างสมบูรณ์หรือไม่?

ใช่ NVIDIA ได้เผยแพร่กระบวนการฝึกอย่างครบถ้วนบน Hugging Face รวมถึงน้ำหนักโมเดล, ตัวอย่างข้อมูลฝึก 100,000 พันล้านชิ้น, ตัวอย่างหลังการฝึก 40 ล้านชิ้น และแผนการเรียนรู้เสริมใน 21 สภาพแวดล้อม ซึ่งมีความโปร่งใสมากกว่ารุ่นเชิงพาณิชย์ในกลุ่มเดียวกัน

ดูต้นฉบับ
news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น