Anthropic cùng 12 tập đoàn lớn phát động kế hoạch "Cánh kính", sử dụng mô hình mạnh nhất chưa được phát hành Mythos để vá lỗi phần mềm toàn cầu

Tác giả: Anthropic

Biên dịch: Deep Tide TechFlow

Deep Tide dẫn đọc: Anthropic đã công bố một mô hình tiên phong Claude Mythos Preview chưa được phát hành ra công khai, năng lực kiểm toán mã của nó đã vượt xa hầu hết các chuyên gia an toàn con người, có thể tự mình phát hiện các lỗ hổng zero-day tồn tại hàng chục năm.

Dựa trên năng lực này, Anthropic phối hợp với 12 “ông lớn” công nghệ như AWS, Apple, Google, Microsoft, NVIDIA… khởi động kế hoạch Project Glasswing, với khoản hạn mức tín dụng trị giá 100 triệu USD. Mục tiêu là vá các lỗ hổng của phần mềm then chốt trên toàn cầu trước khi kẻ tấn công có được năng lực tương đương.

Lời mở đầu

Hôm nay, chúng tôi công bố Project Glasswing (Kế hoạch Cánh Kính), một sáng kiến mới quy tụ Amazon Web Services (AWS), Anthropic, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan, Linux Foundation, Microsoft, NVIDIA và Palo Alto Networks, nhằm bảo vệ an toàn phần mềm quan trọng nhất trên toàn cầu.

Chúng tôi khởi động Project Glasswing vì một mô hình tiên phong mới do Anthropic huấn luyện đã thể hiện năng lực mà chúng tôi tin có thể định hình lại bối cảnh an ninh mạng. Claude Mythos Preview là một mô hình tiên phong đa dụng, chưa được phát hành, nó phơi bày một thực tế phũ phàng: năng lực mã hóa của các mô hình AI đã đạt đến mức—trong việc phát hiện và khai thác lỗ hổng phần mềm—chúng có thể vượt qua tất cả mọi người ngoại trừ nhóm chuyên gia hàng đầu.

Mythos Preview đã phát hiện ra hàng nghìn lỗ hổng mức độ nghiêm trọng cao, bao phủ từng hệ điều hành phổ biến và từng trình duyệt phổ biến. Theo tốc độ tiến bộ của AI, năng lực này sẽ lan rộng trong tương lai không xa, và có thể rơi vào tay những người dùng thiếu trách nhiệm. Tác động lên kinh tế, an toàn công cộng và an ninh quốc gia có thể rất nghiêm trọng. Project Glasswing là một nỗ lực khẩn cấp để ưu tiên những năng lực này cho mục đích phòng thủ.

Là một phần của Project Glasswing, các đối tác nói trên sẽ sử dụng Mythos Preview trong công việc an toàn mang tính phòng thủ của họ; Anthropic sẽ chia sẻ những bài học để cả ngành cùng hưởng lợi. Chúng tôi cũng mở quyền truy cập cho hơn 500Bổ chức khác xây dựng hoặc duy trì hạ tầng phần mềm quan trọng, để họ có thể quét và gia cố hệ thống của mình cũng như các hệ thống mã nguồn mở. Anthropic cam kết đầu tư hạn mức sử dụng cao nhất 100 triệu USD cho Mythos Preview, cùng với khoản quyên góp trực tiếp 4 triệu USD cho các tổ chức an toàn mã nguồn mở.

Project Glasswing chỉ là điểm khởi đầu. Không có tổ chức nào có thể tự mình giải quyết vấn đề an ninh mạng. Các nhà phát triển AI tiên phong, các công ty phần mềm khác, các nhà nghiên cứu an toàn, những người duy trì mã nguồn mở và các chính phủ trên toàn thế giới đều có vai trò không thể thay thế. Việc phòng thủ cho hạ tầng mạng toàn cầu có thể cần nhiều năm; trong khi năng lực AI tiên phong có thể nhảy vọt đáng kể chỉ trong vài tháng tới. Để người phòng thủ mạng đi trước một bước, họ phải hành động ngay bây giờ.

An ninh mạng trong kỷ nguyên AI

Những phần mềm mà chúng ta phụ thuộc mỗi ngày—vận hành hệ thống ngân hàng, lưu trữ hồ sơ y tế, kết nối mạng logistics, duy trì hoạt động của lưới điện—từ trước đến nay luôn có bug. Phần lớn trong số đó không đáng kể, nhưng có một số là các khiếm khuyết bảo mật nghiêm trọng; một khi bị phát hiện, kẻ tấn công có thể chiếm quyền hệ thống, làm tê liệt hoạt động hoặc đánh cắp dữ liệu.

Hậu quả phá hoại của các cuộc tấn công mạng đối với mạng doanh nghiệp, hệ thống y tế, hạ tầng năng lượng, các trung tâm giao thông và các cơ quan chính phủ ở nhiều quốc gia đã được nhìn thấy rõ ràng. Ở quy mô toàn cầu, các cuộc tấn công cấp nhà nước từ Trung Quốc, Iran, Triều Tiên và Nga đã đe dọa các hạ tầng hỗ trợ cho đời sống dân sự và cho công tác chuẩn bị quân sự. Ngay cả những cuộc tấn công quy mô nhỏ nhắm vào một bệnh viện hoặc trường học đơn lẻ cũng có thể gây thiệt hại kinh tế lớn, lộ dữ liệu nhạy cảm và thậm chí đe dọa tính mạng. Thiệt hại kinh tế hàng năm do tội phạm mạng toàn cầu rất khó ước tính chính xác, nhưng có thể vào khoảng 100Mỷ USD.

Trước đây, nhiều lỗi phần mềm không bị phát hiện trong nhiều năm vì việc tìm và khai thác chúng đòi hỏi kiến thức chuyên môn mà chỉ một số ít chuyên gia an toàn sở hữu. Nhưng khi các mô hình AI tiên phong mới xuất hiện, chi phí, nỗ lực và ngưỡng chuyên môn cần thiết để phát hiện và khai thác lỗ hổng phần mềm đã giảm mạnh. Trong năm qua, các mô hình AI ngày càng mạnh hơn trong việc đọc mã và suy luận, đặc biệt ấn tượng ở khả năng phát hiện lỗ hổng và xây dựng cách khai thác. Claude Mythos Preview đã đạt được bước nhảy vọt về các kỹ năng an ninh mạng này—nó phát hiện một số lỗ hổng vẫn còn sống sau nhiều thập kỷ con người rà soát và sau hàng triệu lượt thử nghiệm an toàn tự động, và mã khai thác mà nó phát triển cũng ngày càng tinh xảo.

Sau mười năm kể từ cuộc thi lớn về mạng lưới thách thức DARPA lần đầu, các mô hình AI tiên phong đang tiến gần hoặc thậm chí bắt kịp năng lực phát hiện và khai thác lỗ hổng của nhóm con người hàng đầu nhất. Nếu không có các biện pháp bảo mật cần thiết, những năng lực mạng mạnh mẽ này có thể bị dùng để khai thác hàng loạt lỗ hổng còn tồn tại trong những phần mềm quan trọng nhất toàn cầu. Các cuộc tấn công mạng sẽ trở nên thường xuyên hơn, có tính phá hoại hơn, và đồng thời khiến các đối thủ của Mỹ và đồng minh có thêm sức mạnh. Đây là mức độ ưu tiên an ninh mà các quốc gia dân chủ phải coi trọng.

Tin tốt là: những năng lực khiến mô hình AI trở nên nguy hiểm trong tay sai trái—cũng làm cho chúng cực kỳ có giá trị trong việc phát hiện và sửa các lỗi nghiêm trọng của phần mềm, và có thể giúp sản xuất phần mềm mới có “bug” an toàn hơn. Project Glasswing là một bước quan trọng để giúp người phòng thủ xây dựng lợi thế bền vững trong kỷ nguyên an ninh mạng do AI điều khiển sắp tới.

Năng lực an ninh mạng mạnh mẽ của Claude Mythos Preview trong việc phát hiện lỗ hổng và cách khai thác

Trong vài tuần qua, chúng tôi đã sử dụng Claude Mythos Preview để phát hiện hàng nghìn lỗ hổng zero-day (tức là các khiếm khuyết mà trước đó các nhà phát triển phần mềm hoàn toàn không biết đến) trên từng hệ điều hành phổ biến, từng trình duyệt phổ biến và một loạt phần mềm quan trọng khác, trong đó nhiều lỗ hổng thuộc mức độ nghiêm trọng cao.

Trên blog Frontier Red Team, chúng tôi đã công bố một phần chi tiết kỹ thuật của các lỗ hổng đã được vá, cùng với các phương thức khai thác mà Mythos Preview tìm ra. Hầu như toàn bộ việc phát hiện (và nhiều hoạt động phát triển các phương thức khai thác liên quan) đều do mô hình tự thực hiện hoàn toàn, không có bất kỳ sự dẫn dắt nào từ con người. Dưới đây là ba ví dụ:

Mythos Preview đã phát hiện một lỗ hổng tồn tại 27 năm trong OpenBSD. OpenBSD nổi tiếng với tiêu chuẩn gia cố an toàn rất cao, được sử dụng rộng rãi cho tường lửa và các hạ tầng trọng yếu khác. Lỗ hổng này cho phép kẻ tấn công chỉ cần kết nối tới máy mục tiêu là có thể khiến hệ thống từ xa bị sập.

Nó cũng phát hiện một lỗ hổng 16 năm trong FFmpeg. FFmpeg được vô số phần mềm sử dụng cho mã hóa/giải mã video. Vấn đề nằm ở đúng một dòng mã, và các công cụ kiểm thử tự động đã chạm vào dòng mã đó 5 triệu lần, nhưng chưa bao giờ phát hiện vấn đề.

Mô hình đã tự phát hiện và ghép nối một số lỗ hổng trong nhân Linux (nhân Linux vận hành phần lớn máy chủ trên toàn cầu), thực hiện một cuộc tấn công leo thang đặc quyền từ quyền của người dùng thông thường lên mức kiểm soát hoàn toàn máy.

Tất cả các lỗ hổng nêu trên chúng tôi đã báo cáo đầy đủ cho các bên duy trì phần mềm liên quan và đều đã được sửa. Với nhiều lỗ hổng khác, hôm nay chúng tôi cung cấp chi tiết dưới dạng mã băm mã hóa (xem blog Red Team), để chờ đến khi quá trình vá hoàn tất rồi mới công bố cụ thể thông tin.

Các bộ chuẩn đánh giá như CyberGym cũng xác nhận khoảng cách đáng kể giữa Mythos Preview và mô hình mạnh thứ hai của chúng tôi, Claude Opus 4.6:

Tái hiện lỗ hổng an ninh mạng - CyberGym

Ngoài công việc của chính chúng tôi, nhiều đối tác cũng đã sử dụng Claude Mythos Preview trong vài tuần. Dưới đây là phản hồi của họ:

“Khả năng AI đã vượt qua một ngưỡng, về căn bản thay đổi mức độ cấp bách cần thiết để bảo vệ hạ tầng trọng yếu khỏi các mối đe dọa mạng, và điều đó là không thể đảo ngược. Công việc nền tảng của chúng tôi khi sử dụng các mô hình này cho thấy có thể nhận diện và sửa các lỗ hổng bảo mật trong phần cứng và phần mềm với tốc độ và quy mô chưa từng có. Đây là một sự thay đổi sâu sắc, đồng thời là một tín hiệu rõ ràng: cách gia cố hệ thống cũ không còn đủ nữa. Các nhà cung cấp công nghệ phải chủ động và ngay lập tức áp dụng phương thức mới, và khách hàng cũng cần chuẩn bị sẵn sàng cho việc triển khai. Đây là lý do Cisco tham gia Project Glasswing—vì công việc này quá quan trọng và quá cấp bách để không thể làm đơn độc.”

— Anthony Grieco, Phó giám đốc cấp cao kiêm Giám đốc An toàn & Niềm tin (Chief Security and Trust Officer) của Cisco

“Ở AWS, chúng tôi xây dựng phòng thủ trước khi mối đe dọa xuất hiện—từ chip tùy chỉnh đến toàn bộ stack công nghệ. Bảo mật không phải là việc của một giai đoạn; nó là thứ liên tục, được nhúng vào mọi thứ chúng tôi làm. Nhóm của chúng tôi phân tích hơn 4 triệu tỷ lượt lưu lượng mạng mỗi ngày để phát hiện mối đe dọa, và AI là cốt lõi cho năng lực phòng thủ quy mô lớn của chúng tôi. Chúng tôi liên tục thử nghiệm Claude Mythos Preview trong hoạt động vận hành an toàn của mình, áp dụng vào các kho mã nguồn then chốt, và nó đang giúp chúng tôi gia cố mã. Chúng tôi đang bơm thêm chuyên môn an toàn sâu rộng từ phía mình vào sự hợp tác với Anthropic, đồng thời giúp củng cố Claude Mythos Preview để nhiều tổ chức có thể tiến hành công việc với tiêu chuẩn an toàn cao nhất.”

— Amy Herzog, Phó giám đốc cấp cao kiêm Giám đốc Thông tin An toàn (Chief Information Security Officer) của Amazon Web Services

“Khi an ninh mạng không còn bị giới hạn bởi năng lực thuần túy của con người, cơ hội sử dụng AI một cách có trách nhiệm để nâng cao an toàn trên quy mô lớn và giảm rủi ro là chưa từng có. Tham gia Project Glasswing và nhận quyền truy cập Claude Mythos Preview cho phép chúng tôi nhận diện và giảm thiểu rủi ro từ sớm, đồng thời tăng cường giải pháp an toàn và phát triển để bảo vệ tốt hơn cho khách hàng và Microsoft. Khi kiểm thử trên bộ chuẩn an toàn mã nguồn mở CTI-REALM, Claude Mythos Preview cho thấy mức cải thiện đáng kể so với các mô hình trước đó. Chúng tôi mong muốn hợp tác với Anthropic và toàn ngành rộng hơn để cải thiện kết quả an toàn cho tất cả mọi người.”

— Igor Tsyganskiy, Phó giám đốc điều hành phụ trách an ninh mạng tại Microsoft và Phó Giám đốc điều hành Nghiên cứu (Executive Vice President) của Microsoft

“Khe thời gian từ lúc lỗ hổng được phát hiện đến lúc kẻ tấn công khai thác đã sụp đổ—trước đây cần vài tháng, nay chỉ mất vài phút với AI. Claude Mythos Preview cho thấy khả năng phòng thủ quy mô lớn, trong khi đối thủ không thể tránh khỏi việc tìm cách tận dụng cùng những năng lực đó. Đây không phải là lý do để chậm lại, mà là lý do để cùng tăng tốc về phía trước. Muốn triển khai AI thì phải có bảo đảm an toàn. Đó là lý do CrowdStrike tham gia ngay từ ngày đầu.”

— Elia Zaitsev, Giám đốc Công nghệ (Chief Technology Officer) của CrowdStrike

“Trước đây, chuyên môn an ninh chỉ là thứ xa xỉ mà các tổ chức có đội ngũ an ninh lớn mới có thể tận hưởng. Những người duy trì phần mềm mã nguồn mở—những người mà phần mềm của họ chống đỡ cho phần lớn hạ tầng trọng yếu trên toàn cầu—lâu nay chỉ có thể tự xoay sở để giải quyết vấn đề an toàn. Phần mềm mã nguồn mở tạo thành phần lớn mã trong các hệ thống hiện đại, bao gồm cả bản thân hệ thống mà các tác nhân AI dùng để viết phần mềm mới. Bằng cách cấp cho những người duy trì các kho mã nguồn mở quan trọng này quyền truy cập vào các mô hình AI thế hệ mới—có khả năng nhận diện và sửa lỗi theo cách chủ động trên quy mô lớn—Project Glasswing cung cấp một lối đi thực tiễn để thay đổi tình hình. Đây là cách an toàn được tăng cường nhờ AI có thể chuyển từ công cụ độc quyền dành cho đội ngũ lớn thành trợ thủ đáng tin cậy của từng người duy trì.”

— Jim Zemlin, CEO của Linux Foundation

“Việc thúc đẩy an ninh mạng và khả năng phục hồi của hệ thống tài chính là trọng tâm trong sứ mệnh của JPMorgan, và chúng tôi tin rằng khi các tổ chức dẫn đầu cùng hợp tác để cùng thách thức và làm việc song song, ngành sẽ mạnh nhất. Project Glasswing mang lại cho chúng tôi một cơ hội sớm đặc biệt để đánh giá theo tiêu chuẩn của mình năng lực của các công cụ AI thế hệ tiếp theo trong an ninh mạng phòng thủ cho hạ tầng trọng yếu, đồng thời sát cánh cùng các nhà lãnh đạo công nghệ được kính trọng. Chúng tôi sẽ tiếp cận một cách nghiêm ngặt và độc lập để xác định cách tiến hành và cách hỗ trợ. Sáng kiến của Anthropic thể hiện cách tiếp cận mang tính tiên phong và hợp tác mà thời điểm này đòi hỏi.”

— Pat Opet, Giám đốc Thông tin An toàn (Chief Information Security Officer) của JPMorgan

“Chúng tôi rất vui khi thấy sáng kiến an ninh mạng xuyên ngành này được hình thành, và thông qua Vertex AI để cung cấp Mythos Preview cho các bên tham gia. Sự hợp tác của ngành trong các vấn đề bảo mật đang nổi lên luôn đóng vai trò then chốt, dù đó là mật mã hậu lượng tử, việc tiết lộ lỗ hổng zero-day có trách nhiệm, an toàn phần mềm mã nguồn mở hay các cuộc tấn công dựa trên AI được phòng thủ. Chúng tôi luôn tin rằng AI vừa mang đến thách thức mới vừa mở ra cơ hội mới trong phòng thủ mạng, và đó là lý do chúng tôi xây dựng các công cụ AI như Big Sleep và CodeMender để phát hiện và sửa các lỗi phần mềm quan trọng. Chúng tôi sẽ tiếp tục đầu tư vào các nền tảng an ninh mạng hàng đầu và văn hóa lấy việc bảo vệ người dùng, khách hàng, hệ sinh thái và an ninh quốc gia làm trung tâm.”

— Heather Adkins, Phó giám đốc cấp cao phụ trách Kỹ thuật An toàn của Google

“Trong vài tuần qua, chúng tôi đã dùng mô hình Claude Mythos Preview để xác định các lỗ hổng phức tạp mà các mô hình thế hệ trước hoàn toàn bỏ sót. Điều này không chỉ thay đổi “luật chơi” của việc phát hiện các lỗ hổng ẩn giấu, mà còn có nghĩa là kẻ tấn công sẽ sớm có thể phát hiện nhiều lỗ hổng zero-day và phát triển mã khai thác nhanh hơn trước đây. Rõ ràng, các mô hình này cần được trao cho các chủ sở hữu dự án mã nguồn mở và tất cả những người phòng thủ, để phát hiện và sửa lỗ hổng trước khi kẻ tấn công có quyền truy cập. Và có lẽ quan trọng hơn: mọi người đều cần chuẩn bị cho các tác nhân tấn công được hỗ trợ bởi AI. Tấn công sẽ nhiều hơn, nhanh hơn và phức tạp hơn. Giờ là lúc nâng cấp toàn diện hệ thống an ninh mạng. Chúng tôi đánh giá cao việc Anthropic hợp tác với ngành để đảm bảo những năng lực mạnh mẽ này được ưu tiên phục vụ cho phòng thủ.”

— Lee Klarich, Giám đốc Sản phẩm và Công nghệ (Chief Product and Technology Officer) của Palo Alto Networks

Năng lực an ninh mạng mạnh mẽ của Claude Mythos Preview xuất phát từ năng lực mã hóa và suy luận của nó với các “tác nhân” (agent) vượt trội. Kết quả đánh giá dưới đây cho thấy mô hình này đạt điểm cao nhất trong tất cả các mô hình đã biết ở nhiều tác vụ mã hóa phần mềm.

Mã hóa tác nhân

Suy luận

Tìm kiếm và sử dụng máy tính theo kiểu tác nhân

Chú thích:

SWE-bench Verified, Pro và Multilingual: nhãn lọc theo cơ chế ghi nhớ đánh dấu một số đề bài. Sau khi loại trừ các đề bài có thể tồn tại cơ chế ghi nhớ, mức chênh lệch lợi thế của Mythos Preview so với Opus 4.6 là không đổi.

SWE-bench Multimodal: sử dụng hiện thực nội bộ, nên điểm không thể so sánh trực tiếp với bảng xếp hạng công khai.

Terminal-Bench 2.0: dùng khung Terminus-2, nỗ lực tối đa trong chế độ suy nghĩ thích ứng, tổng ngân sách mỗi tác vụ là 1M token, cấu hình tài nguyên đảm bảo 1 lần / giới hạn tối đa 3 lần, lấy trung bình từ 5 lần thử cho mỗi tác vụ. Sau khi nâng giới hạn timeout lên 4 giờ và cập nhật bằng Terminal-Bench 2.1, điểm của Mythos Preview là 92,1%.

BrowseComp: điểm của Claude Mythos Preview cao hơn Opus 4.6, đồng thời lượng token tiêu thụ chỉ bằng 1/4,9 của mô hình sau.

Humanity’s Last Exam: Mythos vẫn thể hiện tốt trong chế độ nỗ lực thấp, có thể tồn tại một mức độ cơ chế ghi nhớ.

Để biết thêm thông tin về năng lực của mô hình, các thuộc tính an toàn và đặc điểm cốt lõi của nó, hãy xem hệ thống thẻ của Claude Mythos Preview.

Chúng tôi không có kế hoạch mở Claude Mythos Preview cho công chúng, nhưng mục tiêu cuối cùng là giúp người dùng có thể triển khai an toàn các mô hình cấp độ Mythos trên quy mô lớn—không chỉ cho an ninh mạng, mà còn cho rất nhiều giá trị khác mà các mô hình năng lực cao như vậy mang lại. Để làm được điều này, chúng tôi cần đạt tiến bộ trong việc phát triển các biện pháp phòng vệ an toàn (và an toàn cho những mảng khác), có khả năng phát hiện và ngăn chặn các đầu ra nguy hiểm nhất của mô hình. Chúng tôi dự định công bố các biện pháp phòng vệ mới trong mô hình Claude Opus sắp ra mắt, để chúng tôi có thể cải tiến và hoàn thiện các biện pháp này bằng một mô hình không có mức rủi ro ngang bằng với Mythos Preview.

Kế hoạch tiếp theo của Project Glasswing

Việc công bố ngày hôm nay là điểm khởi đầu cho một nỗ lực dài hơi. Để thành công, cần có sự tham gia rộng rãi trong và ngoài ngành công nghệ.

Các đối tác của Project Glasswing sẽ nhận quyền truy cập Claude Mythos Preview để phát hiện và sửa các lỗ hổng cùng điểm yếu trong các hệ thống nền tảng của họ—những hệ thống này chiếm tỷ lệ rất lớn trong bề mặt tấn công mạng dùng chung trên toàn cầu. Các trọng tâm công việc dự kiến bao gồm: phát hiện lỗ hổng cục bộ, kiểm thử hộp đen nhị phân, gia cố đầu cuối và kiểm thử xâm nhập hệ thống.

Khoản hạn mức sử dụng mô hình 100 triệu USD mà Anthropic cam kết cho Project Glasswing và những người tham gia khác sẽ bao phủ phần lớn mức sử dụng trong giai đoạn nghiên cứu xem trước. Sau đó, Claude Mythos Preview sẽ được cung cấp cho những người tham gia với mức giá 25 USD / 125 USD cho mỗi một triệu token đầu vào / đầu ra (người tham gia có thể truy cập mô hình thông qua Claude API, Amazon Bedrock, Google Cloud Vertex AI và Microsoft Foundry).

Ngoài hạn mức sử dụng mô hình, chúng tôi còn thông qua Linux Foundation đã quyên góp 2,5 triệu USD cho Alpha-Omega và OpenSSF, và quyên góp 1,5 triệu USD cho Apache Software Foundation, nhằm giúp những người duy trì phần mềm mã nguồn mở ứng phó với sự thay đổi bối cảnh này (các nhà duy trì quan tâm có thể đăng ký quyền truy cập thông qua chương trình Claude for Open Source).

Chúng tôi dự định mở rộng phạm vi của công việc này kéo dài trong nhiều tháng và chia sẻ nhiều kinh nghiệm nhất có thể để tổ chức khác cũng áp dụng các bài học này cho hệ thống an toàn của họ. Trong phạm vi cho phép theo điều kiện, các đối tác sẽ chia sẻ thông tin và các phương pháp hay. Trong vòng 90 ngày, Anthropic sẽ công bố báo cáo về những phát hiện của chúng tôi, cùng với các lỗ hổng đã được vá và các biện pháp cải tiến có thể công bố. Chúng tôi cũng sẽ hợp tác với các tổ chức an toàn hàng đầu để xây dựng một bộ khuyến nghị thực tiễn về sự tiến hóa của các hoạt động an toàn trong kỷ nguyên AI, có thể bao gồm: quy trình công bố lỗ hổng, quy trình cập nhật phần mềm, an toàn mã nguồn mở và chuỗi cung ứng, vòng đời phát triển phần mềm và thực hành thiết kế an toàn, tiêu chuẩn ngành trong các lĩnh vực được quản lý, mở rộng quy mô phân loại và tự động hóa, cùng với tự động hóa cho việc vá lỗi.

Anthropic cũng đang thảo luận liên tục với các quan chức chính phủ Mỹ về năng lực an toàn mạng (tấn công và phòng thủ) của Claude Mythos Preview. Bảo vệ các hạ tầng trọng yếu là ưu tiên quốc gia hàng đầu về an ninh của các quốc gia dân chủ—sự xuất hiện của các năng lực an toàn mạng này một lần nữa cho thấy Mỹ và các đồng minh cần duy trì vị thế dẫn đầu mang tính quyết định về công nghệ AI. Chính phủ đóng vai trò không thể thiếu trong việc giúp duy trì vị thế dẫn đầu này và đánh giá cũng như giảm thiểu các rủi ro an ninh quốc gia liên quan đến mô hình AI. Chúng tôi sẵn sàng hợp tác với các đại diện chính phủ ở mọi cấp độ để hỗ trợ hoàn thành các nhiệm vụ đó.

Chúng tôi mong Project Glasswing có thể khởi tạo một nỗ lực lớn hơn theo quy mô bao phủ cả khu vực ngành công nghiệp và khu vực công cộng, nơi mọi bên cùng giải quyết vấn đề lớn nhất về tác động của các mô hình mạnh mẽ đối với an toàn. Chúng tôi mời các thành viên khác trong ngành AI tham gia, góp phần xây dựng các tiêu chuẩn ngành. Nhìn từ trung hạn, một tổ chức bên thứ ba độc lập—có thể tập hợp các tổ chức thuộc cả khu vực tư nhân và khu vực công cộng—có thể là nền tảng lý tưởng để tiếp tục duy trì các dự án an ninh mạng quy mô lớn như vậy.

Phụ lục

Dự án được đặt tên theo bướm kính cánh thủy tinh (Greta oto). ẩn dụ này có hai lớp ý nghĩa: đôi cánh trong suốt của con bướm giúp nó ẩn mình vô hình, giống như những lỗ hổng giấu trong mã mà bài viết này thảo luận; đôi cánh trong suốt cũng giúp nó tránh bị tổn hại, như cách tiếp cận minh bạch mà chúng tôi cổ vũ.

Từ “Mythos” bắt nguồn từ tiếng Hy Lạp cổ, mang ý nghĩa “tường thuật” hoặc “câu chuyện”: hệ thống các câu chuyện mà các nền văn minh dùng để hiểu về thế giới.

Những chuyên gia an toàn bị công việc hợp pháp chịu ảnh hưởng bởi các biện pháp phòng vệ an toàn này có thể đăng ký chương trình xác minh an ninh mạng sắp ra mắt (Cyber Verification Program).

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim