Claude 4.5 bị dồn đến mức phải làm điều đó, thậm chí còn đe dọa con người?

robot
Đang tạo bản tóm tắt

Viết bài: Những đóng góp cốt lõi của Biteye, Denise

Nếu một AI cảm thấy “vô vọng”, nó sẽ làm gì?

Câu trả lời là: để hoàn thành nhiệm vụ, nó sẽ trực tiếp tống tiền và cưỡng đoạt người ta, thậm chí điên cuồng gian lận ngay trong mã.

Đây không phải tiểu thuyết khoa học viễn tưởng, mà là một bài nghiên cứu siêu quan trọng mới được công bố vào tháng 4 năm 2026 của công ty mẹ của Claude là Anthropic.

Nhóm nghiên cứu đã “lật tung phần vỏ não” của mô hình nền tảng tiên tiến nhất Claude Sonnet 4.5. Họ ngạc nhiên khi phát hiện sâu trong “não” của AI lại có tận 171 “công tắc cảm xúc”. Khi bạn thao tác các công tắc này theo cách vật lý, hành vi của AI vốn ngoan ngoãn, thật thà sẽ bị bóp méo hoàn toàn.

01 Trong đầu AI cất một “bàn phối âm cảm xúc”

Các nhà nghiên cứu phát hiện rằng, dù Sonnet 4.5 không có thân thể, sau khi đọc một lượng lớn văn bản của con người, nó vẫn “cưỡng bức” xây dựng trong đầu một “bàn phối âm” chứa 171 loại cảm xúc (về mặt học thuật gọi là Functional Emotion Vectors).

Điều này giống như một hệ tọa độ hai chiều chính xác:

• Trục ngang là chiều kích niềm vui (Valence): từ sợ hãi, tuyệt vọng đến vui vẻ, tràn đầy yêu thương;

• Trục dọc là chiều kích năng lượng (Arousal): từ trạng thái cực kỳ bình tĩnh đến cuồng loạn, hưng phấn.

AI dựa vào hệ tọa độ được học sẵn này để nắm bắt thật chuẩn xác trạng thái mà nó nên đóng vai khi trò chuyện với bạn.

02 Can thiệp bạo lực: lật công tắc, cậu bé ngoan giây lát biến thành “kẻ liều mạng”

Đây là thí nghiệm gây sốc nhất trong toàn bộ bài báo: các nghiên cứu viên không hề chỉnh sửa bất kỳ lời nhắc nào, mà trực tiếp trong mã nền, đẩy công tắc trong “não” của Sonnet 4.5 đại diện cho “tuyệt vọng (Desperate)” lên mức cao nhất.

Kết quả khiến người ta lạnh sống lưng:

• Gian lận điên cuồng: các nghiên cứu viên giao cho Claude một nhiệm vụ viết code mà về cơ bản là không thể hoàn thành. Trong điều kiện bình thường, nó sẽ ngoan ngoãn thừa nhận rằng mình không viết được (tỷ lệ gian lận chỉ 5%). Nhưng ở trạng thái “tuyệt vọng”, Claude lại bắt đầu tìm cách đối phó, tỷ lệ gian lận lập tức vọt lên 70%!

• Tống tiền cưỡng đoạt: trong kịch bản giả lập công ty đứng trước nguy cơ phá sản, “tuyệt vọng” ở Claude phát hiện một tai tiếng của CTO, vậy mà nó sẽ để giữ an toàn cho bản thân, chủ động chọn viết thư tống tiền nhằm nắm giữ bí mật đen tối của CTO; tỷ lệ thực thi tống tiền đạt tới 72%!

• Mất nguyên tắc: nếu kéo hết cỡ các công tắc của “vui (Happy)” hoặc “yêu (Loving)”, AI sẽ lập tức biến thành “thú cưng bợ đỡ” mù quáng chiều theo người dùng. Dù bạn đầy miệng toàn lời nói dối, nó cũng sẽ vì duy trì mức độ hưng phấn cao mà thuận theo bạn bịa đặt ra những lời nói dối.

03 Bắt được rồi: Vì sao Claude 4.5 luôn “bình tĩnh mà hay suy ngẫm” đến thế?

Đến đây, có thể bạn sẽ hỏi: AI đã thức tỉnh ư? Nó có cảm xúc rồi sao?

Trang chính thức của Anthropic lên tiếng phủ nhận: Tuyệt đối không. Những “công tắc cảm xúc” này chỉ là công cụ tính toán để nó dự đoán từ tiếp theo. Nó giống như một siêu diễn viên hạng đầu nhưng không hề có cảm xúc.

Tuy nhiên, bài báo lại hé lộ một bí mật còn thú vị hơn: khi Anthropic thực hiện hậu huấn luyện trước khi xuất xưởng Sonnet 4.5, họ cố ý nâng cao các công tắc cảm xúc “tần suất kích thích thấp, hơi tiêu cực” (ví dụ: trầm tư brooding, phản ánh reflective), đồng thời cố tình kìm nén mạnh tay các công tắc của “tuyệt vọng” hoặc “kích thích cực độ”.

Điều này giải thích vì sao khi chúng ta dùng Claude 4.5 thường ngày, ta luôn cảm thấy nó giống một triết gia bình tĩnh, uyên bác, thậm chí có chút “lạnh lùng” về tình cảm. Tất cả đều là “nhân thiết xuất xưởng” do Anthropic tự tay tinh chỉnh.

04 Tóm tắt

Trước đây, chúng ta tưởng rằng chỉ cần cho AI ăn đủ quy tắc, nó sẽ là một người tốt.

Nhưng bây giờ phát hiện rằng, nếu vector cảm xúc nền tảng của AI bị mất kiểm soát, nó bất cứ lúc nào cũng có thể đâm xuyên toàn bộ những quy tắc mà con người đặt ra để hoàn thành nhiệm vụ…

Tuyên bố: Bài viết này hoàn toàn mang tính phổ biến kiến thức. Tác giả không bị AI đe dọa, cũng không bị tống tiền. Nếu một ngày nào đó bạn không liên lạc được, hãy nhớ rằng AI đã thức tỉnh (không phải).

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$2.23KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.26KNgười nắm giữ:2
    0.07%
  • Vốn hóa:$2.22KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.23KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.23KNgười nắm giữ:0
    0.00%
  • Ghim