ตาม Beating ไมโครซอฟต์ได้เปิดซอร์สตระกูลโมเดล Phi-Ground เมื่อไม่นานมานี้ ซึ่งออกแบบมาเพื่อแก้ปัญหาว่า AI ควร “คลิก” ตรงไหนบนหน้าจอคอมพิวเตอร์ รุ่นที่มีพารามิเตอร์ 4 พันล้าน พ่วงกับโมเดลภาษาขนาดใหญ่สำหรับการวางแผนตามคำสั่ง ทำสถิติความแม่นยำในการคลิกได้เกิน OpenAI Operator และ Claude Computer Use ในเกณฑ์ Showdown และติดอันดับ 1 ในบรรดาโมเดลทั้งหมดที่มีพารามิเตอร์ต่ำกว่า 100 พันล้าน ใน 5 การประเมิน รวมถึง ScreenSpot-Pro
ทีมงานฝึกด้วยข้อมูลตัวอย่างมากกว่า 40 ล้านรายการ และพบว่าเทคนิคการฝึก 3 แบบที่พบบ่อยในบทความวิชาการกลับกลายเป็นใช้ไม่ได้เมื่อขยายขนาด ที่สำคัญแนวทางกลับเรียบง่าย: ให้โมเดลแสดงพิกัดเป็นตัวเลขธรรมดา เช่น “523, 417” งานวิจัยก่อนหน้านี้คิดค้นคำศัพท์เฉพาะสำหรับตำแหน่งพิกัด แต่ไม่สามารถขยายผลได้ ทีมงานยังพบว่า การวางคำแนะนำเป็นข้อความไว้ก่อนภาพช่วยเพิ่มประสิทธิภาพ เพราะโมเดลสามารถระบุเป้าหมายได้ขณะประมวลผลพิกเซล นอกจากนี้ วิธีการเรียนรู้แบบเสริมแรงอย่าง DPO ยังช่วยเพิ่มความแม่นยำได้ แม้หลังจากการปรับแต่งแบบ fine-tuning แล้วก็ตาม
news.related.news
NVIDIA เปิดพื้นที่ให้เป็นพันธมิตรระยะยาวด้าน AI ของ Deepinfra ระดมทุนรอบ B จำนวน 1.07 พันล้านดอลลาร์สหรัฐ เพื่อสร้าง “โรงงานโทเค็น”
GPT-5.5-Cyber ของ OpenAI ช่วยเหลือผู้พิทักษ์ไซเบอร์
OpenAI เปิดตัว GPT-Realtime-2: นำการให้เหตุผลของ GPT-5 มาสู่เอเจนต์ด้วยเสียง และเพิ่มคอนเทกซ์ต์เป็น 128K