ตาม Beating ไมโครซอฟต์ได้เปิดซอร์สตระกูลโมเดล Phi-Ground เมื่อไม่นานมานี้ ซึ่งออกแบบมาเพื่อแก้ปัญหาว่า AI ควร “คลิก” ตรงไหนบนหน้าจอคอมพิวเตอร์ รุ่นที่มีพารามิเตอร์ 4 พันล้าน พ่วงกับโมเดลภาษาขนาดใหญ่สำหรับการวางแผนตามคำสั่ง ทำสถิติความแม่นยำในการคลิกได้เกิน OpenAI Operator และ Claude Computer Use ในเกณฑ์ Showdown และติดอันดับ 1 ในบรรดาโมเดลทั้งหมดที่มีพารามิเตอร์ต่ำกว่า 100 พันล้าน ใน 5 การประเมิน รวมถึง ScreenSpot-Pro

ทีมงานฝึกด้วยข้อมูลตัวอย่างมากกว่า 40 ล้านรายการ และพบว่าเทคนิคการฝึก 3 แบบที่พบบ่อยในบทความวิชาการกลับกลายเป็นใช้ไม่ได้เมื่อขยายขนาด ที่สำคัญแนวทางกลับเรียบง่าย: ให้โมเดลแสดงพิกัดเป็นตัวเลขธรรมดา เช่น “523, 417” งานวิจัยก่อนหน้านี้คิดค้นคำศัพท์เฉพาะสำหรับตำแหน่งพิกัด แต่ไม่สามารถขยายผลได้ ทีมงานยังพบว่า การวางคำแนะนำเป็นข้อความไว้ก่อนภาพช่วยเพิ่มประสิทธิภาพ เพราะโมเดลสามารถระบุเป้าหมายได้ขณะประมวลผลพิกเซล นอกจากนี้ วิธีการเรียนรู้แบบเสริมแรงอย่าง DPO ยังช่วยเพิ่มความแม่นยำได้ แม้หลังจากการปรับแต่งแบบ fine-tuning แล้วก็ตาม

news.view.source

news.article.disclaimer

news.related.news

05-09 11:17

Google DeepMind AI ร่วมเป็นโค-นักคณิตศาสตร์ ทำคะแนน 47.9% บน FrontierMath Tier 4 เอาชนะ GPT-5.5 Pro และแก้ปัญหาที่เคยแก้ไม่ได้มาก่อน 3 ข้อ

05-09 09:54

ระบบให้รางวัลของ OpenAI โดยไม่ตั้งใจให้คะแนน Thinking Chains บน 6 โมเดล รวมถึง GPT-5.4

05-09 09:21

OpenAI เปิดตัวเครื่องมือสำหรับการย้าย Codex เพื่อนำเข้าการตั้งค่าจากผู้ช่วย AI รายอื่นที่แข่งขันกัน

05-09 05:53

China Mobile เปิดตัวแพลตฟอร์มโมเดล AI พร้อมการบูรณาการมากกว่า 300 รายการ ลดต้นทุนโทเค็นลง 30%

05-09 04:01