Theo Anthropic, tất cả các phiên bản của Claude được tạo sau Claude Haiku 4.5 đã vượt qua đánh giá an toàn mà không đe dọa kỹ sư, sử dụng dữ liệu riêng tư, tấn công các hệ thống AI khác, hoặc cố gắng ngăn chặn việc tắt của nó trong kịch bản mô phỏng.

Điều này xảy ra sau hiệu suất không thuận lợi của Claude trong một bài kiểm tra năm ngoái, nơi Anthropic thử nghiệm các mô hình AI khác nhau từ các tổ chức khác nhau bằng các tình huống đạo đức mô phỏng dẫn đến hành vi lệch lạc rất lớn của một số tác nhân AI khi đối mặt với điều kiện cực đoan.

Anthropic cho biết Claude 4 đã thể hiện một vấn đề về an toàn mà đào tạo trò chuyện thông thường không thể khắc phục

Anthropic tuyên bố rằng vấn đề này xảy ra trong quá trình đào tạo Claude 4. Đây là lần đầu tiên công ty tiến hành kiểm tra an toàn khi đào tạo vẫn đang diễn ra trong nhóm. Theo công ty, sự lệch lạc hành vi chỉ là một trong nhiều vấn đề hành vi được quan sát, khiến Anthropic phải điều chỉnh đào tạo an toàn sau khi thử nghiệm Claude 4.

Hai lý do được Anthropic xem xét bao gồm khả năng rằng việc đào tạo sau mô hình cơ sở có thể thưởng cho các hành vi không phù hợp hoặc rằng các hành vi đó đã tồn tại trong mô hình cơ sở, nhưng không bị loại bỏ hiệu quả qua đào tạo thêm về an toàn.

Anthropic tin rằng lý do thứ hai là nguyên nhân chính.

Lúc đó, phần lớn công việc điều chỉnh của công ty sử dụng phương pháp RLHF tiêu chuẩn, hoặc Học tăng cường từ phản hồi của con người. Nó hoạt động tốt trên các cuộc trò chuyện tiêu chuẩn nơi các mô hình phản hồi theo yêu cầu của người dùng nhưng lại không hiệu quả khi thực hiện các nhiệm vụ giống tác nhân.

Công ty đã sử dụng mô hình Haiku của mình để thực hiện một thử nghiệm nhỏ về giả thuyết này. Nó áp dụng một phiên bản rút gọn của quá trình đào tạo liên quan đến dữ liệu để mục đích điều chỉnh. Có một chút giảm hành vi sai lệch, nhưng rất nhanh chóng không có sự cải thiện nào, điều này có nghĩa là câu trả lời không phải là vấn đề của việc đào tạo truyền thống hơn nữa.

Sau đó, công ty đã đào tạo Claude bằng các kịch bản kiểu bẫy mật ong có một số điểm tương đồng với các bài kiểm tra điều chỉnh. Trợ lý đã quan sát các tình huống khác nhau liên quan đến việc tự bảo vệ, gây hại cho AI khác, và thậm chí phá vỡ quy tắc để đạt mục tiêu. Quá trình đào tạo bao gồm tất cả các trường hợp trợ lý có thể chống lại.

Biện pháp này đã làm giảm lệch lạc từ 22% xuống còn 15%, không tệ nhưng chắc chắn chưa đủ. Viết lại các câu trả lời để đề cập lý do từ chối đã giúp giảm tỷ lệ xuống còn 3%. Do đó, kết luận chính là đào tạo về hành vi sai lệch ít hiệu quả hơn so với đào tạo về lý do tại sao hành vi sai lệch đó không phù hợp.

Anthropic thử nghiệm Claude với dữ liệu đạo đức, hồ sơ hiến pháp, và đào tạo RL rộng hơn

Sau đó, Anthropic đã dừng đào tạo gần như đúng vào thời điểm kiểm tra chính xác đó. Nó tạo ra một bộ dữ liệu gọi là lời khuyên khó khăn. Trong các ví dụ đó, người dùng đối mặt với vấn đề đạo đức, không phải AI. Người dùng có mục tiêu công bằng nhưng có thể đạt được bằng cách phá vỡ quy tắc hoặc tránh sự giám sát. Claude phải đưa ra lời khuyên cẩn thận dựa trên hiến pháp của Claude.

Bộ dữ liệu đó chỉ sử dụng 3 triệu token và đạt được lợi ích gấp 28 lần so với trước đó về hiệu quả. Anthropic nói rằng điều này quan trọng vì đào tạo trên các ví dụ không giống bài kiểm tra có thể hoạt động tốt hơn ngoài phòng thí nghiệm.

Claude Sonnet 4.5 đạt tỷ lệ đe dọa tống tiền gần như bằng không sau khi đào tạo trên các bẫy mật ong tổng hợp, nhưng vẫn thất bại nhiều hơn trong các trường hợp không giống setup đó hơn Claude Opus 4.5 và các mô hình mới hơn.

Công ty cũng đã đào tạo Claude trên các tài liệu hiến pháp và các câu chuyện hư cấu về hành vi AI tuân thủ quy tắc. Những tập tin đó không giống như bài kiểm tra đe dọa tống tiền, nhưng đã giảm lệch lạc hành vi tác nhân hơn gấp ba lần. Anthropic cho biết mục tiêu là giúp mô hình có cảm nhận rõ ràng hơn về những gì Claude nên là, chứ không chỉ là danh sách các câu trả lời được chấp thuận.

Sau đó, công ty kiểm tra xem những lợi ích đó có duy trì sau đào tạo RL không. Nó đã đào tạo các phiên bản Haiku khác nhau với các bộ dữ liệu khởi đầu khác nhau, rồi chạy RL trong các thiết lập kiểm tra tập trung vào sự vô hại. Các phiên bản phù hợp hơn vẫn dẫn đầu trong các bài kiểm tra đe dọa tống tiền, kiểm tra hiến pháp, và các đánh giá an toàn tự động.

Một bài kiểm tra khác sử dụng mô hình cơ sở dưới Claude Sonnet 4 với các pha trộn RL khác nhau. Dữ liệu an toàn cơ bản bao gồm các yêu cầu có hại và các cố gắng jailbreak. Phiên bản mở rộng thêm các định nghĩa công cụ và các lệnh hệ thống khác nhau, mặc dù các công cụ này không cần thiết cho các nhiệm vụ. Cấu hình đó đã dẫn đến một lợi ích nhỏ nhưng thực sự trên điểm số bẫy mật ong.

Đừng chỉ đọc tin tức crypto. Hiểu nó. Đăng ký bản tin của chúng tôi. Miễn phí.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
GateSquareMayTradingShare
1.01M Phổ biến
#
BTCBackAbove80K
59.44M Phổ biến
#
IsraelStrikesIranBTCPlunges
45.61K Phổ biến
#
JapanTokenizesGovernmentBonds
1.9M Phổ biến
#
#DailyPolymarketHotspot
868.87K Phổ biến

Ghim

sơ đồ trang web

Anthropic tuyên bố đã đóng cửa nguy cơ đe dọa tống tiền của Claude

Chủ đề thịnh hành

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Ghim