Rakuten โปรดปรานในการเปิดตัว "โมเดล AI ที่ใหญ่ที่สุดของญี่ปุ่น" แต่ชุมชนค้นพบว่าแกนหลักคือ DeepSeek V3

動區BlockTempo

กลุ่มบริษัท Rakuten ได้ประกาศเปิดตัว Rakuten AI 3.0 อย่างเป็นทางการ โดยใช้คำโฆษณาว่าเป็น “โมเดล AI ประสิทธิภาพสูงที่ใหญ่ที่สุดในญี่ปุ่น” ซึ่งเป็นโมเดล MoE ที่มีพารามิเตอร์ 671B ที่พัฒนาขึ้นเองและเปิดเผยเป็นโอเพ่นซอร์สฟรี แต่ภายในไม่กี่ชั่วโมงก็ถูกชุมชนค้นพบไฟล์ config.json บน HuggingFace ซึ่งเขียนไว้ชัดเจนว่า model_type: deepseek_v3 ซึ่งเป็นเวอร์ชันปรับแต่งภาษาญี่ปุ่นของ DeepSeek V3 อย่างชัดเจน
(เรื่องราวก่อนหน้า: Bloomberg รายงานว่า DeepSeek กำลังเติบโตอย่างแข็งแกร่ง และจีนกำลังเป็นภัยคุกคามที่สำคัญต่ออำนาจผู้นำด้าน AI ของสหรัฐอเมริกา)
(ข้อมูลเพิ่มเติม: DeepSeek V4 ประกาศหยุดใช้ GPU ของ NVIDIA! แล้วความก้าวหน้าของ AI จีนที่พยายามพึ่งพาอำนาจการคำนวณของตนเองไปถึงไหนแล้ว?)

วันนี้กลุ่มบริษัท Rakuten ซึ่งก่อตั้งโดย Hiroshi Mikitani ซึ่งดำรงตำแหน่งประธานและซีอีโอ ได้ประกาศเปิดตัว Rakuten AI 3.0 อย่างเป็นทางการ โดยอ้างว่าเป็น “โมเดล AI ประสิทธิภาพสูงที่สุดในญี่ปุ่น” ซึ่งเปิดเผยเป็นโอเพ่นซอร์สภายใต้สัญญาอนุญาต Apache 2.0 ฟรีสมบูรณ์ และอ้างว่าสามารถทำคะแนนเหนือ GPT-4o ในหลายๆ การทดสอบมาตรฐานภาษาญี่ปุ่น แต่ภายในไม่กี่ชั่วโมงหลังประกาศ ก็มีการเปิดเผยรายละเอียดที่ทำให้สถานการณ์ดูอึดอัด

เมื่อเปิดหน้าโมเดลบน HuggingFace พบว่าไฟล์ config.json เขียนไว้ชัดเจนว่า: model_type: deepseek_v3 และ architectures: DeepseekV3ForCausalLM

พารามิเตอร์รวม 671B, การใช้งาน inference 37B, หน้าต่างบริบท 128K tokens แต่ละตัวเลขตรงกับ DeepSeek V3 อย่างสมบูรณ์ กล่าวอีกนัยหนึ่ง Rakuten AI 3.0 ไม่ใช่โมเดลที่พัฒนาขึ้นเอง แต่เป็นเวอร์ชันที่ใช้ DeepSeek V3 เป็นฐาน แล้วปรับแต่งภาษาญี่ปุ่นด้วยข้อมูลจากโมเดลต้นแบบนี้

การสนับสนุนจากรัฐบาลญี่ปุ่น แต่พื้นฐานเป็นโมเดลจากจีน

สิ่งที่น่าจับตามองมากขึ้นคือสถานะทางการของโมเดลนี้ Rakuten AI 3.0 เป็นผลผลิตจากโครงการ GENIAC (Generative AI Accelerator Challenge) ซึ่งเป็นความร่วมมือระหว่างกระทรวงเศรษฐกิจ การค้า และอุตสาหกรรมญี่ปุ่น (METI) กับองค์กรพัฒนานวัตกรรมเทคโนโลยีพลังงานใหม่ (NEDO) ซึ่งรัฐบาลญี่ปุ่นให้การสนับสนุนด้านการคำนวณในการฝึกโมเดลนี้บางส่วน

ในประกาศของ Rakuten ก็เพียงกล่าวว่า “ใช้ประโยชน์สูงสุดจากผลลัพธ์ที่ดีที่สุดจากชุมชนโอเพ่นซอร์ส” โดยไม่ระบุชื่อโมเดลต้นแบบว่าเป็น DeepSeek

แล้ว DeepSeek V3 แข็งแกร่งแค่ไหน?

DeepSeek V3 เปิดตัวเมื่อธันวาคม 2024 เป็นโมเดลโอเพ่นซอร์สระดับเรือธงจากบริษัทจีน DeepSeek ซึ่งใช้ทุนฝึกประมาณ 5 ถึง 6 ล้านดอลลาร์สหรัฐ ซึ่งถูกกว่า GPT-4 ถึงกว่า 20 เท่า แต่สามารถทำคะแนนเทียบเท่า หรือแม้แต่เกินกว่าโมเดลปิดที่ดีที่สุดในหลายๆ การทดสอบ จนสร้างความฮือฮาในวงการ AI

เนื่องจาก DeepSeek ใช้สัญญาอนุญาตแบบ Apache 2.0 ซึ่งอนุญาตให้ใครก็สามารถนำไปใช้เชิงพาณิชย์ ปรับแต่ง และเผยแพร่ใหม่ได้โดยไม่มีปัญหาทางกฎหมาย แต่ “ถูกกฎหมาย” กับ “ซื่อสัตย์และเปิดเผย” เป็นคนละเรื่องกัน

รายละเอียดของพารามิเตอร์ Rakuten AI 3.0 มีดังนี้:

  • โครงสร้าง: MoE (ผู้เชี่ยวชาญผสมผสาน) ซึ่งฐานคือ DeepSeek V3
  • พารามิเตอร์รวม: 671B, สำหรับ inference: 37B
  • หน้าต่างบริบท: 128K tokens
  • การปรับแต่งภาษาญี่ปุ่นเป็นหลัก
  • สัญญาอนุญาต: Apache 2.0 (ใช้งานเชิงพาณิชย์ได้ไม่จำกัด)

อิทธิพลของ DeepSeek ได้แทรกซึมเข้าไปในระดับที่น่าสนใจอย่างหนึ่ง คือกลุ่มยักษ์ใหญ่ด้านอีคอมเมิร์ซของญี่ปุ่นอย่าง Rakuten ซึ่งใช้ทุนคำนวณที่ได้รับจากรัฐบาล ไปปรับแต่งโมเดลโอเพ่นซอร์สจากจีน แล้วนำชื่อแบรนด์ของตนเองไปติดประกาศ โดยไม่ต้องเสียค่าโฆษณาใดๆ DeepSeek จึงกลายเป็นโฆษณาที่ดีที่สุดโดยไม่ตั้งใจ!

ดูต้นฉบับ
news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น