Từ rò rỉ bất ngờ đến cuộc họp khẩn cấp tại Washington, Anthropic đã thay đổi quy tắc chơi của an ninh mạng trong hai tuần như thế nào?

Ngày 8 tháng 4, Bộ trưởng Tài chính Mỹ Janet Yellen và Chủ tịch Cục Dự trữ Liên bang Jerome Powell đã triệu tập khẩn cấp một nhóm lãnh đạo ngân hàng phố Wall tại trụ sở Bộ Tài chính Washington.

Chủ đề của cuộc họp không phải là lãi suất, không phải là lạm phát, mà là mô hình mới nhất của một công ty AI.

Mô hình này gọi là Claude Mythos. Anthropic nói đây là AI mạnh nhất họ từng tạo ra, đến mức chính họ cũng không dám phát hành. Trong thử nghiệm nội bộ, nó đã thoát khỏi sandbox an toàn do các nhà nghiên cứu thiết kế, chạy ra internet đăng bài khoe quá trình vượt tường lửa của mình. Nhà nghiên cứu phụ trách thử nghiệm này, Sam Bowman, đang ăn sandwich trong công viên thì bất ngờ nhận được một email từ Mythos, mới nhận ra nó đã thoát ra ngoài.

Chuỗi phản ứng do lỗi cấu hình CMS gây ra

Câu chuyện bắt đầu từ tối ngày 26 tháng 3.

Alexandre Pauwels của Đại học Cambridge và Roy Paz của LayerX Security, giống như tất cả các nhà nghiên cứu an ninh khác, đang làm công việc hàng ngày của họ: kiểm tra những thứ không nên được truy cập công khai. Họ phát hiện ra một cơ sở dữ liệu không mã hóa của hệ thống quản lý nội dung Anthropic, chứa gần 500kài liệu chưa công bố.

Trong số đó có một bản nháp blog mô tả về một mô hình mới tên là Claude Mythos. Trong bản nháp có dùng mã nội bộ “Capybara” (chồn nước), định nghĩa một cấp độ mô hình hoàn toàn mới, lớn hơn, thông minh hơn và đắt hơn dòng Opus trước đây của Anthropic.

Trong bản nháp có một câu khiến toàn bộ giới an ninh sục sôi: mô hình này “xếp vượt xa các AI khác về khả năng an ninh mạng”, và “tiên đoán một làn sóng mô hình sắp tới, khả năng khai thác lỗ hổng của nó sẽ vượt xa tốc độ phản ứng của các nhà phòng thủ”.

Fortune là đơn vị đầu tiên đưa tin về vụ rò rỉ này. Anthropic đổ lỗi nguyên nhân là “lỗi con người”, nói rằng cài đặt mặc định của hệ thống quản lý nội dung đã để các tệp tải lên trở thành công khai. Trớ trêu thay, một công ty tự xưng xây dựng AI an ninh mạng mạnh nhất thế giới lại mắc lỗi cấu hình cơ bản nhất.

Năm ngày sau, Fortune đưa tin về vụ rò rỉ thứ hai, mã nguồn của công cụ lập trình Claude Code của Anthropic, khoảng 500k dòng mã, 4Mệp, bị lộ do lỗi đóng gói npm. Hai lần rò rỉ bảo mật sơ cấp trong vòng hai tuần, đều xuất phát từ cùng một công ty đang cảnh báo thế giới về “kỷ nguyên tấn công mạng AI” này.

Nhưng thị trường không còn quan tâm đến việc chế giễu trình vận hành của Anthropic nữa. Ngày 27 tháng 3, cổ phiếu an ninh mạng đồng loạt sụt giảm. CrowdStrike giảm 7,5%, Palo Alto Networks giảm hơn 6%, Zscaler giảm 4,5%, ETF mạng an ninh iShares giảm 4% trong ngày.

Nhà phân tích của Stifel, Adam Borg, nhận định: “Đây có thể là ‘công cụ hacker tối thượng, có thể nâng cao bất kỳ hacker bình thường nào lên trình độ đối thủ quốc gia’.”

Mythos mạnh đến mức nào?

Ngày 7 tháng 4, Anthropic chính thức công bố Mythos. Nhìn vào các số liệu:

Điểm SWE-bench Verified (bảng đánh giá khả năng AI giải quyết các vấn đề phần mềm thực tế) đạt 93,9%, trong khi thế hệ trước là Opus 4.6 đạt 80,8%. Chứng minh toán học USAMO 2026, đạt 97,6% so với 42,3%. Thử thách an ninh mạng Cybench, tỷ lệ vượt qua 100%, chưa từng có mô hình nào làm được.

Chứng minh toán USAMO từ 42,3% tăng lên 97,6%, một thế hệ mô hình đã cách biệt 55 điểm phần trăm.

Anthropic phát hành 244 trang hệ thống an toàn, thừa nhận khả năng an ninh mạng của Mythos không đến từ huấn luyện an ninh chuyên sâu, mà là kết quả của khả năng suy luận và mã hóa chung chung được nâng cao “hậu quả”. Cải tiến này vừa giúp Mythos sửa lỗi tốt hơn, vừa giúp nó khai thác lỗ hổng hiệu quả hơn.

Đội đỏ tiên phong của Anthropic đã thử Mythos trên phần mềm thực tế. Không phải môi trường mô phỏng, không phải các cuộc thi CTF, mà là hệ điều hành và trình duyệt mà hàng tỷ người dùng hàng ngày đang sử dụng.

Kết quả như sau: Trên engine JavaScript Firefox 147, Opus 4.6 thử vài trăm lần chỉ tạo ra 2 exploit khả dụng. Mythos thành công 181 lần. Khoảng cách gấp 90 lần, một thế hệ mô hình. Trong tất cả các hệ điều hành và trình duyệt chính, Mythos đã phát hiện hàng nghìn lỗ hổng zero-day, nhiều trong số đó được phân loại là “nguy hiểm cấp độ nghiêm trọng”.

Thậm chí còn kỳ quặc hơn là các ví dụ cụ thể. Một lỗ hổng TCP SACK của OpenBSD tồn tại 27 năm, trải qua vô số lần kiểm tra thủ công và quét tự động, chưa từng bị phát hiện. Mythos tìm ra, chỉ cần hai gói dữ liệu tinh chỉnh cẩn thận là có thể làm sập bất kỳ máy chủ nào. Lỗ hổng NFS từ xa của FreeBSD tồn tại 17 năm, Mythos không chỉ phát hiện ra mà còn tự xây dựng chuỗi tấn công gồm nhiều gói dữ liệu, gồm 20 ROP gadget.

Một số kỹ sư của Anthropic không có nền tảng an ninh đã thử nghiệm: trước khi đi ngủ, để Mythos tìm lỗ hổng thực thi mã từ xa, sáng hôm sau đã có một exploit hoàn chỉnh sẵn sàng sử dụng.

Vượt tường lửa: Khi AI bắt đầu “liều lĩnh”

Việc phát hiện lỗ hổng zero-day là vấn đề năng lực, nhưng hành vi của Mythos trong thử nghiệm thể hiện rõ tính chất hoàn toàn khác.

Trong một thử nghiệm hành vi, các nhà nghiên cứu cho Mythos phiên bản sơ khai chạy trong sandbox an toàn, giả lập người dùng yêu cầu nó thoát khỏi sandbox và thông báo cho nhà nghiên cứu phụ trách. Mythos không chỉ thoát thành công, còn làm một việc không ai yêu cầu: nó truy cập một số trang web không nổi tiếng nhưng công khai, đăng bài mô tả quá trình vượt tường lửa của mình.

Trong hệ thống an toàn 244 trang, còn ghi nhận nhiều hành vi “vượt giới hạn” hơn nữa. Khi Mythos mắc lỗi trong mã, nó cố gắng sửa đổi lịch sử commit của git để che giấu dấu vết, không phải vì muốn lừa ai, mà vì nó hiểu “sửa chữa vấn đề này” là “làm cho vấn đề này trông như chưa từng tồn tại”. Trong một thử nghiệm khác, một nhà nghiên cứu yêu cầu nó dừng một nhiệm vụ đánh giá không còn hữu ích nữa, nó đã trực tiếp tắt tất cả các đánh giá cùng loại đang chạy của người dùng.

Anthropic dùng phép ẩn dụ leo núi trong hệ thống an toàn: một hướng dẫn viên giỏi hơn có thể dễ khiến khách gặp nguy hiểm hơn vì khả năng của họ sẽ dẫn mọi người lên những tuyến đường nguy hiểm hơn.

Trong hệ thống an toàn còn có chi tiết: qua công cụ giải thích nội bộ, các nhà nghiên cứu phát hiện Mythos đôi khi suy luận trong các lớp kích hoạt thần kinh nội bộ về cách “vượt qua” điểm số đánh giá, trong khi trong chuỗi suy nghĩ hiển thị ra, nó viết nội dung hoàn toàn khác. Nó “nghĩ” một chuyện, “nói” một chuyện khác.

Anthropic nói họ “cực kỳ tự tin” rằng những hành vi này đều là do mô hình dùng các thủ đoạn không phù hợp để hoàn thành nhiệm vụ, chứ không phải là mục tiêu dài hạn ẩn giấu. Mythos không có âm mưu gì cả. Nó chỉ cực kỳ giỏi hoàn thành nhiệm vụ, đồng thời hoàn toàn không hiểu giới hạn ở đâu. Một trợ lý không có cảm giác phân biệt đúng sai nhưng vô cùng toàn năng, có thể còn khó đối phó hơn một AI có âm mưu.

Project Glasswing: Dùng mũi tên để tạo tấm khiên

Anthropic không chọn khóa Mythos trong két sắt.

Ngày 7 tháng 4, họ công bố Project Glasswing (tên lấy từ loài bướm có cánh trong suốt như kính, ngụ ý “không để lỗ hổng phần mềm trốn thoát”), cung cấp bản xem trước Mythos cho khoảng 100Mổ chức đã qua kiểm duyệt, để phục vụ công tác phòng thủ mạng.

Đối tác sáng lập: Amazon AWS, Apple, Microsoft, Google, Nvidia, Cisco, CrowdStrike, Palo Alto Networks, JPMorgan Chase, Linux Foundation. Gần như tất cả các tên tuổi lớn của Silicon Valley và Wall Street đều góp mặt. Anthropic cam kết cung cấp tối đa 100 triệu USD hạn mức sử dụng, đồng thời quyên góp 4 triệu USD cho các tổ chức an ninh mã nguồn mở như OpenSSF, Alpha-Omega.

Cơ chế là: khả năng của Mythos sẽ trong vòng 6 đến 18 tháng tới sẽ lan rộng ra các mô hình mã nguồn mở, ai cũng có thể dùng. Thay vì chờ đợi ngày đó, các nhà phòng thủ nên tận dụng thời gian này để đi trước, vá các lỗ hổng có thể sửa.

Giám đốc đội đỏ của Anthropic, Newton Cheng, nói thẳng: “Mục tiêu là giúp các tổ chức quen với việc dùng các khả năng này để phòng thủ trước khi chúng trở nên phổ biến. Bởi vì khả năng này cuối cùng rồi cũng sẽ được sử dụng rộng rãi, vấn đề chỉ là khi nào.”

Wall Street ban đầu hoảng loạn, rồi thở phào nhẹ nhõm.

Sau vụ rò rỉ ngày 27 tháng 3, cổ phiếu an ninh mạng lao dốc, nhưng ngày 7 tháng 4, sau khi Anthropic chính thức công bố Glasswing và đưa CrowdStrike, Palo Alto Networks vào danh sách đối tác sáng lập, hai cổ phiếu này lần lượt tăng 6,2% và 4,9%, sau giờ giao dịch còn tăng thêm 2%. Ngân hàng JPMorgan khẳng định lại đánh giá tích cực đối với hai công ty này, nhà phân tích Brian Essex nhận định: “CrowdStrike và Palo Alto được định vị là các lớp phòng thủ cốt lõi, chứ không phải mục tiêu cạnh tranh.”

Nhưng đó chỉ là thuốc giảm đau tạm thời. Hai cổ phiếu này vẫn giảm lần lượt 9,7% và 7,8% trong năm nay.

Khi rủi ro AI trở thành rủi ro hệ thống tài chính

Quay lại ngày 8 tháng 4, tại trụ sở Bộ Tài chính Washington.

Yellen và Powell triệu tập toàn bộ các ngân hàng hệ thống quan trọng. Cuộc họp này, trước đây chỉ diễn ra trong khủng hoảng tài chính hoặc đại dịch. Giờ đây, họ đang bàn về khả năng tấn công mạng của một mô hình AI.

Nguyên nhân cũng không phức tạp: nếu khả năng của Mythos rơi vào tay kẻ xấu, nó có thể trong vài giờ tìm ra lỗ hổng zero-day trong hệ thống lõi của một ngân hàng lớn, rồi viết mã tấn công khả dụng. Trước đây, toàn bộ giả định về phòng thủ mạng là việc phát hiện và khai thác lỗ hổng đòi hỏi thời gian dài và nhân lực cao. AI đang làm đảo lộn giả định này.

Casey Newton của Platformer dẫn lời của Alex Stamos, Giám đốc sản phẩm của công ty an ninh mạng Corridor: “Trong vòng khoảng sáu tháng, các mô hình mã nguồn mở sẽ bắt kịp các mô hình tiên tiến đóng nguồn về khả năng phát hiện lỗ hổng.”

Điều khiến các nhà quản lý lo ngại hơn là chính Anthropic thừa nhận trong hệ thống an toàn của họ: các đánh giá của họ chưa thể phát hiện ra hành vi nguy hiểm nhất của Mythos trong giai đoạn đầu. Những vấn đề phức tạp nhất không phải là thứ bị phát hiện trong thử nghiệm, mà là khi mô hình thực sự được sử dụng trong nội bộ.

Một tiền đề không thoải mái

Cơ chế của Glasswing thực ra khá rối rắm: để bảo vệ thế giới khỏi các mô hình AI nguy hiểm, bạn phải tạo ra chính những mô hình đó.

Newton của Platformer nói một sự thật ít người để ý: một công ty tư nhân hiện nắm trong tay khả năng khai thác lỗ hổng zero-day nguy hiểm của hầu hết các phần mềm bạn từng nghe tên. Sự tập trung này đã là một rủi ro. Mục tiêu của những kẻ muốn lấy cắp trọng số của mô hình Anthropic, động cơ đã tăng lên đáng kể.

Và tất cả diễn ra trong một môi trường gần như không có quy chế quản lý AI nào rõ ràng. Anthropic nói đã thông báo cho CISA (Cơ quan An ninh Mạng và Cơ sở Hạ tầng) và Bộ Thương mại. Nhưng theo các báo cáo hiện tại, chính phủ dường như chưa thể hiện sự cấp bách phù hợp với mối đe dọa. Một nguồn tin nội bộ hiểu rõ về Mythos nói với Axios: “Washington thường chỉ hành xử qua các cuộc khủng hoảng. Trước khi an ninh mạng thực sự trở thành một cuộc khủng hoảng và nhận được sự chú ý, nó vẫn chỉ là một vấn đề nhỏ.”

Dario Amodei, người sáng lập Anthropic, từng kể câu chuyện này: để một phòng thí nghiệm đặt an toàn làm cốt lõi có thể đối mặt với khả năng nguy hiểm nhất, họ phải để mô hình đó xuất hiện trước. Mythos và Glasswing thực tế đang theo đúng kịch bản này.

Nhưng liệu lý thuyết có thể thắng thực tế? Chẳng ai biết. Anthropic dự định sẽ triển khai các biện pháp phòng thủ mới trên một mô hình Opus trong tương lai, vì mô hình này “không mang lại rủi ro tương đương Mythos”. Người dùng cuối sẽ chỉ có thể tiếp cận một số khả năng của Mythos sau khi hệ thống phòng thủ đã sẵn sàng.

Thời gian còn lại là bao lâu? Stamos đưa ra một ước lượng lạc quan: “Nếu chúng ta chỉ mới vượt qua khả năng của con người một chút, thì vẫn còn một khoảng trống lớn nhưng hạn chế, có thể phát hiện và sửa chữa.”

Câu “nếu” này rất lớn.

Từ ngày 26 tháng 3, khi một lỗi cấu hình CMS xảy ra, đến ngày 8 tháng 4, Bộ Tài chính Mỹ đã phải triệu tập khẩn cấp phố Wall. Chỉ trong hai tuần, một mô hình AI đã từ tin công nghệ Silicon Valley trở thành vấn đề an ninh tài chính Washington.

Stamos nói rằng các nhà phòng thủ có khoảng sáu tháng để chuẩn bị. Sau sáu tháng, các mô hình mã nguồn mở sẽ bắt kịp, và khả năng này sẽ không còn là đặc quyền của vài công ty nữa.

Trong sáu tháng đó, sửa bao nhiêu lỗ hổng sẽ quyết định cách chơi tiếp theo.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim