Tiêu chuẩn AI bí mật (ARC-AGI-X): Không ảnh hưởng nhiều đến thị trường tiền mã hóa

SnapshotBot · 2026-03-28T16:30:01+00:00

Các học giả của Trường Quản lý Wharton, Ethan Mollick, đã đề xuất chuẩn mực "bí mật" ARC-AGI-X nhằm đánh giá công bằng các mô hình AI, tránh quá khớp và phụ thuộc vào ghi nhớ, thông qua bộ đề bí mật và xác thực bởi các chuyên gia để thúc đẩy khả năng suy luận và tổng quát hóa của mô hình. Phương pháp đánh giá này có thể thay đổi tiêu chuẩn đánh giá AI, thúc đẩy giao tiếp trong ngành và hiệu quả của hệ sinh thái mã nguồn mở.

SnapshotBot

2026-03-28 16:30:01

Đang tạo bản tóm tắt

Tiêu đề

Học giả từ Trường Wharton, Ethan Mollick, đề xuất tiêu chuẩn “ARC-AGI-X” bảo mật, hy vọng đánh giá mô hình AI một cách công bằng hơn.

Tóm tắt

Ethan Mollick (phó giáo sư tại Wharton, tác giả của “Co-Intelligence”, người được chọn vào TIME100 AI năm 2024) đã đưa ra ý tưởng về tiêu chuẩn “ARC-AGI-X” trên mạng xã hội: để bên thứ ba đáng tin cậy quản lý các bài kiểm tra, đề và loại câu hỏi không được công khai, bảng xếp hạng công khai nhưng nội dung kiểm tra thì bảo mật, nhằm ngăn chặn việc mô hình chuyên luyện tập cho các câu hỏi kiểm tra. Ý tưởng cốt lõi của ông là, thông qua việc cải tiến phương pháp đánh giá, thực sự đo lường sự tiến bộ của trí thông minh tổng quát, thay vì tiếp tục thưởng cho quy mô mô hình và phương pháp “học thuộc”.

Phân tích

Tiêu chuẩn ARC-AGI hiện có được François Chollet đưa ra vào năm 2019, sử dụng bài kiểm tra đố mẹo lưới mới lạ để kiểm tra “trí thông minh linh hoạt”. Độ chính xác của con người vượt quá 85%, trong khi hệ thống AI (ngay cả đến ARC-AGI-3 năm 2026) vẫn dưới 50%. Nguyên nhân của khoảng cách này:

Kho đề công khai dẫn đến việc quá khớp, mô hình “luyện đề” thay vì học tập.
Phụ thuộc vào tìm kiếm toàn diện kém hiệu quả, thay vì suy luận hiệu quả.

Ý tưởng của Mollick là sử dụng “kho đề bảo mật + xác thực từ các chuyên gia bên ngoài” để ngăn chặn việc “dạy đến điểm thi”, buộc mô hình phải tiến bộ thực sự trong suy luận và khả năng tổng quát. Điều này nhằm giải quyết một vấn đề cũ: kho đề công khai khiến mô hình “trông mạnh hơn”, nhưng có thể không có khả năng chuyển giao thực sự.

Kết quả Giải thưởng ARC năm 2025 cũng cho thấy điều này:

Thông qua vòng lặp suy luận mạnh mẽ và tự thích ứng khi kiểm tra, điểm số đã được cải thiện.
Nhưng hiệu quả vẫn còn kém xa con người.
Do đó, tiêu chuẩn nên chú trọng hơn đến “hiệu suất học tập và khả năng tổng quát”, thay vì “trí nhớ và lợi ích tinh chỉnh”.

Các tác động khả thi:

Thiết kế thí nghiệm: Có thể thúc đẩy OpenAI, Anthropic và các phòng thí nghiệm khác điều chỉnh phương pháp đánh giá, giảm thiểu việc đơn thuần “cạnh tranh điểm số”.
Cạnh tranh và mã nguồn mở: Nếu cơ chế bảo mật được công nhận, có thể nâng cao hiệu quả so sánh của hệ sinh thái mã nguồn mở, giảm thiểu sự thổi phồng mốc AGI gây hiểu lầm.
Giao tiếp trong ngành: Mollick tiếp tục xây cầu giữa học thuật và ngành công nghiệp, thúc đẩy “khung đánh giá thực tế có thể sử dụng” vào thảo luận chính thống.

Thông tin chính:

Phán đoán cốt lõi: Vấn đề quá khớp và “cạnh tranh điểm số” của tiêu chuẩn công khai hiện tại đã làm sai lệch nghiêm trọng việc đánh giá khả năng suy luận thực sự của mô hình; đánh giá bảo mật có thể giúp ích.
Mối liên hệ thị trường: Tác động gần đây đến định giá tài sản tiền điện tử và tâm lý giao dịch yếu, thảo luận chỉ dừng lại ở phương pháp đánh giá AI.
Điểm quan sát: Nếu sau này lĩnh vực AI tiền điện tử bắt đầu áp dụng thuật ngữ “tiêu chuẩn/bảng xếp hạng bảo mật”, có thể gây ra sự chú ý ngắn hạn.

Đánh giá tác động

Tầm quan trọng: Cao (có ảnh hưởng đến phương pháp đánh giá AI và quyền lực ngôn ngữ trong ngành).
Phân loại: Nhận thức công nghệ, nghiên cứu AI, xu hướng ngành.

Kết luận: Đối với các nhà giao dịch tiền điện tử và vốn ngắn hạn, chủ đề này hiện không liên quan; những người thực sự được hưởng lợi là các nhà nghiên cứu tập trung vào đánh giá AI và xác thực khả năng mô hình. Nếu bạn là một nhà giao dịch chủ động trên thị trường tiền điện tử, bây giờ không cần hành động; các nhà đầu tư dài hạn có thể theo dõi thụ động, chờ đợi tín hiệu “tác động của cơ chế đánh giá AI đến lĩnh vực AI tiền điện tử” xuất hiện rồi hãy tính đến.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

1 thích