Microsoft เปิดซอร์สโมเดล Phi-Ground 4B เฟรมเวิร์ก เพิ่มประสิทธิภาพเหนือ OpenAI Operator และ Claude ในความแม่นยำการคลิกหน้าจอ

ตาม Beating ไมโครซอฟต์ได้เปิดซอร์สตระกูลโมเดล Phi-Ground เมื่อไม่นานมานี้ ซึ่งออกแบบมาเพื่อแก้ปัญหาว่า AI ควร “คลิก” ตรงไหนบนหน้าจอคอมพิวเตอร์ รุ่นที่มีพารามิเตอร์ 4 พันล้าน พ่วงกับโมเดลภาษาขนาดใหญ่สำหรับการวางแผนตามคำสั่ง ทำสถิติความแม่นยำในการคลิกได้เกิน OpenAI Operator และ Claude Computer Use ในเกณฑ์ Showdown และติดอันดับ 1 ในบรรดาโมเดลทั้งหมดที่มีพารามิเตอร์ต่ำกว่า 100 พันล้าน ใน 5 การประเมิน รวมถึง ScreenSpot-Pro

ทีมงานฝึกด้วยข้อมูลตัวอย่างมากกว่า 40 ล้านรายการ และพบว่าเทคนิคการฝึก 3 แบบที่พบบ่อยในบทความวิชาการกลับกลายเป็นใช้ไม่ได้เมื่อขยายขนาด ที่สำคัญแนวทางกลับเรียบง่าย: ให้โมเดลแสดงพิกัดเป็นตัวเลขธรรมดา เช่น “523, 417” งานวิจัยก่อนหน้านี้คิดค้นคำศัพท์เฉพาะสำหรับตำแหน่งพิกัด แต่ไม่สามารถขยายผลได้ ทีมงานยังพบว่า การวางคำแนะนำเป็นข้อความไว้ก่อนภาพช่วยเพิ่มประสิทธิภาพ เพราะโมเดลสามารถระบุเป้าหมายได้ขณะประมวลผลพิกเซล นอกจากนี้ วิธีการเรียนรู้แบบเสริมแรงอย่าง DPO ยังช่วยเพิ่มความแม่นยำได้ แม้หลังจากการปรับแต่งแบบ fine-tuning แล้วก็ตาม

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น