Hệ thống tối ưu hóa tự động AI giúp Haiku 4.5 đạt thành tích đứng đầu: Lâm Tuấn Dương cho rằng đây chính là bước ngoặt của "thiết kế môi trường" mà anh đã dự đoán

BlockBeatNews

Theo dõi từ 1M AI News, các nhà nghiên cứu tại Stanford, MIT và công ty game Hàn Quốc KRAFTON đã công bố Meta-Harness, một bộ phương pháp để AI tự động tối ưu khung thực thi (harness, tức “khung bao bọc” mô hình, giàn giáo thực thi điều khiển các tác vụ của Agent, bao gồm thiết kế prompt, gọi công cụ và quản lý ngữ cảnh). Khác với các khung thực thi được viết thủ công, Meta-Harness cho phép một coding Agent đọc mã nguồn của các khung ứng viên qua nhiều lần, nhật ký thực thi và điểm số, sau đó tự động lặp lại để tối ưu.

Trên bộ chuẩn thao tác trong môi trường đầu cuối TerminalBench-2, Meta-Harness nâng tỷ lệ thành công của Claude Haiku 4.5 lên 37.6%, vượt Goose (35.5%) và Claude Code (27.5%), xếp thứ nhất trong tất cả các khung thực thi Haiku 4.5 đã được báo cáo. Trên Claude Opus 4.6, tỷ lệ thành công đạt 76.4%, xếp thứ hai.

Trưởng kỹ thuật Qianwen trước đây Lin Junyang đã chuyển tiếp bài đăng của tác giả và bình luận: “『mô hình + khung thực thi』 đã vượt quá 『chỉ xem mô hình』, hiệu năng của Agent sẽ bị ảnh hưởng đáng kể bởi thiết kế và chất lượng của khung, tôi thực sự tin đây là một hướng đúng đắn”. Trong một bài viết dài mà Lin Junyang đăng vào ngày 27 tháng 3 (hiện đã bị xóa), ông cũng đã dự đoán rằng thiết kế môi trường sẽ chuyển từ một hạng mục phụ thành một hạng mục sản phẩm khởi nghiệp thực thụ. Meta-Harness đã chứng thực phán đoán này bằng dữ liệu thí nghiệm: cùng một mô hình, khi thay một bộ khung thực thi đã được tối ưu bằng AI, chênh lệch kết quả có thể lên tới 10 điểm phần trăm.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận