Bài báo nghiên cứu That Sentient thực sự khiến tôi phải xem xét lại ý nghĩa của từ "bền vững" khi chúng ta nói về các phương pháp nhận dạng dấu vân tay LLM.



Điều mà hầu hết các công trình trước đây bỏ qua là: tất cả đều giả định rằng máy chủ mô hình tuân thủ các quy tắc. Hành xử tốt, phản hồi dự đoán được, mọi thứ đều ổn. Nhưng đó không phải là cách thế giới thực hoạt động. Khi bạn giới thiệu một máy chủ đối địch vào phương trình—một ai đó đang cố gắng tránh hoặc giả mạo dấu vân tay—nhiều phương pháp nhận dạng này chỉ đơn giản là sụp đổ.

Các kỹ thuật trông có vẻ chắc chắn trong điều kiện phòng thí nghiệm kiểm soát. Dữ liệu sạch, các tình huống hợp tác, mọi thứ đều phù hợp. Nhưng chuyển sang môi trường đối địch? Đó là nơi bạn bắt đầu thấy các vết nứt. Nó nhắc nhở rằng độ bền lý thuyết và khả năng chống chịu thực tế là hai loài động vật rất khác nhau. Khoảng cách giữa "hoạt động trong thử nghiệm" và "giữ vững dưới tấn công" là nơi mà nhiều giả định về an ninh âm thầm tan vỡ.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Ghim