Liệu AGI đã xuất hiện? Thậm chí còn chưa gần, một tiêu chuẩn AI mới cho thấy

Decrypt

Tóm tắt ngắn gọn

  • ARC-AGI-3 phơi bày khoảng cách lớn giữa tuyên bố về AGI và thực tế, với các mô hình AI hàng đầu đạt điểm dưới 1% trong khi con người đạt hiệu suất hoàn hảo.
  • Bài kiểm tra đánh giá khả năng tổng quát thực sự — yêu cầu các tác nhân khám phá, lập kế hoạch và học hỏi từ đầu trong môi trường chưa biết thay vì chỉ nhớ các mẫu đã huấn luyện.
  • Dù ngành công nghiệp đang hưng thịnh, các hệ thống AI hiện tại vẫn còn xa mới đạt tới AGI, thiếu khả năng lý luận và thích nghi mà thậm chí trẻ nhỏ cũng thể hiện một cách tự nhiên.

CEO Nvidia Jensen Huang tuần trước đã xuất hiện trên podcast của Lex Fridman và nói rõ ràng, “Tôi nghĩ chúng ta đã đạt được AGI.” Hai ngày sau, bài kiểm tra AI nghiêm ngặt nhất đã công bố benchmark mới nhất về trí tuệ tổng quát nhân tạo — và tất cả các mô hình tiên tiến đều dưới 1%. Quỹ Giải thưởng ARC đã phát hành ARC-AGI-3 trong tuần này, và kết quả thật khốc liệt. Gemini 3.1 Pro của Google dẫn đầu với 0.37%. GPT-5.4 của OpenAI đạt 0.26%. Claude Opus 4.6 của Anthropic đạt 0.25%, trong khi Grok-4.20 của xAI chạm mức zero. Trong khi đó, con người đã giải quyết 100% các môi trường. Đây không phải là một bài kiểm tra đố vui hay kỳ thi lập trình, hay thậm chí là các câu hỏi cấp độ tiến sĩ cực kỳ khó. ARC-AGI-3 là một thử thách hoàn toàn khác biệt so với bất kỳ điều gì ngành AI từng đối mặt trước đây.

Bài kiểm tra này do quỹ của François Chollet và Mike Knoop xây dựng, với một studio game nội bộ và tạo ra 135 môi trường tương tác nguyên bản từ đầu. Ý tưởng là thả một AI vào một thế giới giống trò chơi lạ lẫm, không có hướng dẫn, không mục tiêu rõ ràng, và không mô tả quy tắc. Tác nhân phải khám phá, hiểu rõ nhiệm vụ, lập kế hoạch và thực thi. Nếu điều đó nghe có vẻ như bất kỳ đứa trẻ năm tuổi nào cũng có thể làm được, bạn bắt đầu hiểu vấn đề rồi đấy. Nếu muốn thử xem bạn có giỏi hơn AI không, bạn có thể chơi các trò chơi trong bài kiểm tra bằng cách nhấp vào liên kết này. Chúng tôi đã thử một trò; ban đầu khá kỳ quặc, nhưng sau vài giây, bạn dễ dàng làm quen.

Nó cũng là ví dụ rõ ràng nhất về ý nghĩa của chữ “G” trong AGI. Khi bạn tổng quát hóa, bạn có thể tạo ra kiến thức mới (cách hoạt động của một trò chơi kỳ lạ) mà không cần huấn luyện trước.

Các phiên bản trước của ARC từng kiểm tra các câu đố hình ảnh tĩnh — hiển thị một mẫu, dự đoán mẫu tiếp theo. Ban đầu rất khó. Sau đó, các phòng thí nghiệm đổ thêm sức mạnh tính toán và huấn luyện để vượt qua các bài kiểm tra này, đến mức các benchmark gần như bị bỏ rơi. ARC-AGI-1, ra mắt năm 2019, tập trung vào huấn luyện và lý luận trong quá trình kiểm tra. ARC-AGI-2 tồn tại khoảng một năm trước khi Gemini 3.1 Pro đạt 77.1%. Các phòng thí nghiệm rất giỏi trong việc bão hòa các benchmark mà họ có thể huấn luyện. Phiên bản 3 được thiết kế đặc biệt để ngăn chặn điều đó. Với 110 trong số 135 môi trường được giữ riêng tư — 55 bán riêng tư để kiểm thử API, 55 hoàn toàn khóa để thi đấu — không còn bộ dữ liệu nào để ghi nhớ. Bạn không thể brute-force qua logic trò chơi mới mà chưa từng thấy. Điểm số cũng không phải là pass/fail. ARC-AGI-3 sử dụng chỉ số gọi là RHAE — Hiệu quả hành động của con người tương đối. Mức chuẩn là hiệu suất của con người ở lần chạy thứ hai tốt nhất. Một AI cần mười lần hành động của con người mới đạt 1% điểm, chứ không phải 10%. Công thức bình phương hóa hình phạt cho sự kém hiệu quả. Đi lang thang, quay lại, đoán mò để tìm ra câu trả lời đều bị phạt nặng.  Tác nhân AI tốt nhất trong đợt thử nghiệm kéo dài một tháng của nhà phát triển đạt 12.58%. Các mô hình LLM tiên phong thử qua API chính thức, không tùy chỉnh công cụ, không thể vượt quá 1%. Con người bình thường giải quyết tất cả 135 môi trường mà không cần huấn luyện trước hay hướng dẫn. Nếu đó là tiêu chuẩn, thì các mô hình hiện tại chưa đạt tới. Có một tranh luận phương pháp thực sự ở đây. Báo cáo của ARC cho biết một bộ khung tùy chỉnh do Duke xây dựng đã đẩy Claude Opus 4.6 từ 0.25% lên 97.1% trong một biến thể môi trường gọi là TR87. Điều này không có nghĩa Claude đạt 97.1% trong toàn bộ ARC-AGI-3; điểm benchmark chính thức của nó vẫn là 0.25%, nhưng sự thay đổi này vẫn đáng chú ý. Benchmark chính thức cung cấp mã JSON cho tác nhân, không phải hình ảnh. Đó có thể là một thiếu sót về phương pháp hoặc là minh chứng cho việc các mô hình ngày nay xử lý tốt hơn thông tin thân thiện với con người so với dữ liệu có cấu trúc thô. Quỹ của Chollet đã thừa nhận tranh luận này, nhưng không thay đổi định dạng. “Nhận thức nội dung khung hình và định dạng API không phải là yếu tố hạn chế hiệu suất của các mô hình tiên tiến trên ARC-AGI-3,” bài báo viết. Nói cách khác, họ dường như bác bỏ ý kiến rằng các mô hình thất bại vì “không thể nhìn thấy” đúng nhiệm vụ, mà thay vào đó cho rằng khả năng nhận thức đã đủ rồi — và khoảng cách thực sự nằm ở lý luận và tổng quát hóa.

Thử thách thực tế về AGI xuất hiện trong tuần khi cỗ máy hype hoạt động hết công suất. Ngoài lời bình của Huang, Arm gọi chip trung tâm dữ liệu mới là “CPU AGI.” Sam Altman của OpenAI nói rằng họ đã “xây dựng cơ bản AGI,” và Microsoft đã bắt đầu tiếp thị một phòng thí nghiệm tập trung phát triển ASI: một bước tiến sau khi đạt được AGI. Thuật ngữ này đang bị kéo dài đến mức nó có nghĩa là bất cứ thứ gì phù hợp với lợi ích thương mại. Quan điểm của Chollet đơn giản hơn. Nếu một con người bình thường không cần hướng dẫn mà vẫn làm được, còn hệ thống của bạn thì không, thì bạn chưa có AGI — chỉ là một trình tự dự đoán tự động đắt đỏ cần nhiều sự trợ giúp. Giải thưởng ARC 2026 đang có tổng giải thưởng 2 triệu đô la chia thành ba phần thi, tất cả đều tổ chức trên Kaggle. Mọi giải pháp chiến thắng đều phải mở mã nguồn. Thời gian đang chạy, và hiện tại, các máy móc còn xa mới đạt tới.

Xem bản gốc
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận