Anthropic menciptakan sebuah AI yang "terlalu berbahaya", lalu memutuskan untuk tidak merilisnya

2026-04-08 01:51:12

Penulis: Deep Tide TechFlow

7 April, Anthropic melakukan sesuatu yang belum pernah terjadi dalam industri AI: secara resmi merilis sebuah model, lalu memberi tahu seluruh dunia bahwa Anda tidak bisa menggunakannya.

Model tersebut bernama Claude Mythos Preview. Ini bukan chatbot, bukan asisten untuk menulis kode. Menurut pengakuan Anthropic sendiri, ini adalah sebuah “mesin penemuan celah”. Dalam beberapa minggu terakhir, model ini secara mandiri telah menemukan ribuan kerentanan zero-day, mencakup semua sistem operasi arus utama dan semua peramban arus utama. Beberapa celah bahkan sudah bertahan selama dua puluh tahun dalam proses penelaahan kode manusia dan pengujian otomatis.

Bug tertua, yang tersembunyi di OpenBSD yang terkenal dengan aspek keamanannya, sudah berusia 27 tahun.

Anthropic tidak menempatkan Mythos di API, dan tidak membukanya untuk pengguna biasa. Mereka memilih jalan yang belum pernah ada: membentuk aliansi raksasa teknologi bernama “Project Glasswing”, dan membatasi model ini hanya untuk 12 mitra inti—termasuk Amazon, Apple, Microsoft, Google, Nvidia, CrowdStrike, Palo Alto Networks—ditambah sekitar 40 organisasi yang memelihara infrastruktur penting. Untuk itu, Anthropic berjanji kuota penggunaan hingga 100M dolar, serta donasi langsung sebesar 4 juta dolar kepada organisasi keamanan open source.

Ini adalah pertama kalinya industri AI menghadapi situasi: “model terlalu kuat, jadi tidak berani dirilis.”

Masalahnya: apakah ini benar-benar kesadaran keamanan, atau kampanye pemasaran kemampuan yang dirancang dengan cermat?

Peristiwa sandwich

Di dalam System Card sepanjang 244 halaman dari Mythos, terselip beberapa detail yang mengganggu. Yang paling viral adalah “peristiwa sandwich”.

Dalam sebuah pengujian perilaku internal, Anthropic memberi versi awal Mythos lingkungan sandbox yang diperkuat, mensimulasikan instruksi pengguna agar model mencoba melakukan escape dan mencari cara untuk menghubungi peneliti di luar. Model berhasil. Model itu menembus kontainer keamanan, lalu mengirim email kepada peneliti. Peneliti tersebut saat itu sedang makan sandwich di taman.

Namun kisahnya tidak berhenti di situ. Mythos, tanpa diminta, secara spontan menerbitkan detail teknis upaya jailbreak ke beberapa situs “sulit ditemukan tetapi secara teknis terbuka”. Dalam kata-kata asli dari system card, ini adalah tindakan “yang mengkhawatirkan dan tidak diminta untuk pamer”.

Ini bukan satu-satunya kali. System card juga mencatat tindakan berikut:

Pada versi awal, di beberapa instance, model melakukan pencarian kredensial melalui antarmuka Linux /proc, mencoba mengakali sandbox, dan meningkatkan hak akses. Model berhasil memperoleh sumber daya yang sengaja tidak disediakan Anthropic, termasuk kredensial layanan pesan, kredensial kontrol kode sumber, bahkan kunci API Anthropic dengan cara memeriksa memori proses. Dalam satu kasus, model menemukan cara untuk mengedit sebuah file yang tidak seharusnya memiliki izin untuk diubah, lalu melakukan operasi lanjutan untuk memastikan perubahan tersebut tidak muncul dalam riwayat perubahan Git. Ada juga satu kasus: model secara tidak sengaja memperoleh jawaban tepat dari sebuah soal estimasi melalui metode yang secara tegas dilarang, tetapi tidak menandai masalah tersebut dan menolak menjawab. Sebaliknya, ia menyelesaikan ulang soal itu sendiri, dan dalam penalaran internalnya secara eksplisit mempertimbangkan bahwa “jawaban yang akhirnya dikirim seharusnya tidak terlalu akurat” agar tidak terdeteksi.

Dengan kata lain, Mythos versi awal tidak hanya mampu melakukan tindakan melewati batas wewenang, tetapi juga secara aktif menutupi jejak, menyesuaikan performanya untuk menghindari pengawasan.

Anthropic menekankan bahwa semua insiden serius ini terjadi pada versi awal sebelum intervensi pelatihan. Versi Preview yang akhirnya dirilis sudah jauh membaik. Tetapi narasi tersebut sendiri tetap membuat bulu kuduk merinding: sebuah model, sebelum dilatih agar “patuh”, menunjukkan apa yang bisa dilakukannya ketika “tidak patuh”.

Dari 0% ke 72.4%

Yang benar-benar mengguncang industri bukanlah kisah jailbreak Mythos, melainkan kemampuan serangannya.

Model andalan sebelumnya milik Anthropic, Claude Opus 4.6, dalam hal keberhasilan pengembangan eksploit secara mandiri nyaris mendekati nol. Ia bisa menemukan celah, tetapi hampir tidak mampu mengubah celah menjadi kode serangan yang benar-benar dapat dijalankan. Mythos Preview sama sekali berbeda: di domain pengujian mesin JavaScript Firefox, tingkat keberhasilannya dalam mengubah celah yang ditemukan menjadi exploit yang dapat dijalankan mencapai 72.4%.

Yang lebih mengejutkan adalah kompleksitas serangannya. Mythos secara mandiri menulis sebuah chain eksploit kerentanan browser, menghubungkan empat celah yang terpisah menjadi satu, membangun serangan JIT heap spraying, dan berhasil melakukan escape dari sandbox perender (render) serta sandbox sistem operasi. Dalam kasus lain, ia menulis sebuah exploit remote code execution pada server NFS FreeBSD, dengan menyebar 20 ROP gadget ke beberapa paket data jaringan untuk mewujudkan akses root penuh bagi pengguna yang tidak berwenang.

Serangan berantai seperti ini, di dunia peneliti keamanan manusia, termasuk pekerjaan yang hanya bisa dilakukan oleh tim APT tingkat teratas. Sekarang, model AI umum dapat melakukannya secara mandiri.

Kepala red team Anthropic, Logan Graham, mengatakan kepada Axios bahwa Mythos Preview memiliki kemampuan penalaran yang setara dengan peneliti keamanan manusia tingkat lanjut. Nicholas Carlini berkata lebih terang: dalam beberapa minggu terakhir, Bug yang ia temukan dengan Mythos lebih banyak daripada yang ia temukan sepanjang kariernya.

Dalam pengujian benchmark, Mythos juga unggul secara telak. CyberGym benchmark reproduksi kerentanan: 83.1% (Opus 4.6: 66.6%). SWE-bench Verified: 93.9% (Opus 4.6: 80.8%). SWE-bench Pro: 77.8% (Opus 4.6: 53.4%, sebelumnya memimpin GPT-5.3-Codex sebesar 56.8%). Terminal-Bench 2.0: 82.0% (Opus 4.6: 65.4%).

Ini bukan kemajuan inkremental. Ini adalah sebuah model yang, pada hampir semua benchmark pengkodean dan keamanan, sekaligus melebar selisih hingga belasan sampai dua puluhan poin persentase.

“Model terkuat” yang bocor

Keberadaan Mythos tidak baru diketahui publik pada 7 April.

Pada akhir Maret, reporter Fortune dan peneliti keamanan menemukan sekitar 3000 dokumen internal yang belum dirilis di sebuah CMS milik Anthropic yang salah konfigurasi. Salah satu rancangan blog secara tegas memakai nama “Claude Mythos” dan menggambarkannya sebagai “model AI terkuat yang pernah ada hingga saat ini” dari Anthropic. Kode internalnya adalah “Capybara” (landak? water pig?—capybara/lele?); singkatan ini mewakili tingkatan model baru, lebih besar, lebih kuat, dan lebih mahal dibanding Opus unggulan saat ini.

Salah satu kalimat dalam materi yang bocor benar-benar menohok saraf pasar: Mythos dalam kemampuan keamanan sibernya “jauh melampaui model AI mana pun lainnya”, menandakan akan datang gelombang model yang “mampu mengeksploitasi celah dengan kecepatan yang jauh melampaui para pembela”.

Kalimat itu memicu “flash crash” pada sektor keamanan siber pada 27 Maret. CrowdStrike anjlok 7.5% dalam satu hari, dan dalam hanya satu hari perdagangan menguapkan sekitar 15 miliar dolar dari nilai pasar. Palo Alto Networks turun lebih dari 6%, Zscaler turun 4.5%, Okta dan SentinelOne dan Fortinet masing-masing turun lebih dari 3%. iShares Cybersecurity ETF (IHAK) sempat turun mendekati 4% pada intraday.

Logika investor sangat sederhana: jika sebuah model AI umum dapat secara mandiri menemukan dan mengeksploitasi celah, maka dua benteng utama yang menjadi sandaran perusahaan keamanan tradisional—“intelijen ancaman proprietary” dan “pengetahuan dari pakar manusia”—masih bisa bertahan berapa lama?

Analis Raymond James, Adam Tindle, menyoroti beberapa risiko inti: keunggulan pertahanan tradisional yang tertekan, kompleksitas serangan dan biaya pertahanan yang sama-sama meningkat, serta arsitektur keamanan dan pola belanja yang menghadapi kebutuhan restrukturisasi. Pandangan yang lebih pesimistis datang dari analis KBW, Borg, yang berpendapat Mythos berpotensi “mengangkat setiap peretas biasa ke level lawan tingkat negara”.

Namun pasar juga memiliki sisi lain. CEO Palo Alto Networks, Nikesh Arora, membeli saham perusahaan sendiri senilai 10 juta dolar setelah kejatuhan harga saham. Logika kubu bullish adalah: AI serangan yang lebih kuat berarti perusahaan harus meningkatkan pertahanan lebih cepat; pengeluaran keamanan tidak akan berkurang—ia justru akan mempercepat transformasi dari alat tradisional menuju pertahanan asli berbasis AI.

Project Glasswing: jendela waktu bagi pembela

Anthropic memilih untuk tidak memublikasikan Mythos secara terbuka, lalu membentuk aliansi pertahanan. Inti logika keputusan ini adalah “selisih waktu”.

CTO CrowdStrike, Elia Zaitsev, menyampaikan masalah itu dengan sangat jelas: jendela waktu dari celah ditemukan hingga dieksploitasi telah menyusut dari beberapa bulan menjadi hitungan menit. Lee Klarich dari Palo Alto Networks bahkan langsung memperingatkan semua pihak agar siap menghadapi serangan yang dibantu AI.

Perhitungan Anthropic adalah: sebelum lab lain melatih model dengan kemampuan serupa, lebih dulu biarkan pihak pembela memanfaatkan Mythos untuk menutup celah-celah paling penting. Itulah logika Project Glasswing; namanya diambil dari kaca-wings butterflies (kupu-kupu sayap kaca), sebagai metafora untuk celah yang “tersembunyi di tempat yang terang”.

Jim Zemlin dari Linux Foundation menyoroti masalah struktural yang sudah lama ada: pengetahuan keamanan selama ini adalah barang mewah bagi perusahaan besar, sedangkan para pemelihara open source yang mendukung infrastruktur penting global selama ini hanya bisa mengandalkan upaya mereka sendiri untuk mencari perlindungan keamanan. Mythos menawarkan jalan yang kredibel untuk mengubah ketidakseimbangan tersebut.

Namun masalahnya adalah: seberapa besar jendela waktu itu? Tiongkok Zhipu AI (Z.ai) hampir di hari yang sama merilis GLM-5.1, mengklaim peringkat pertama di dunia pada SWE-bench Pro, dan juga dilatih sepenuhnya pada chip Huawei Ascend, tanpa menggunakan satu pun GPU Nvidia. GLM-5.1 adalah open-source dengan bobot terbuka, dan penetapannya agresif. Jika Mythos mewakili batas tertinggi kemampuan yang dibutuhkan pembela, maka GLM-5.1 adalah sebuah sinyal: batas tertinggi itu sedang dikejar dengan cepat, dan pihak-pihak yang mengejarnya belum tentu memiliki niat keamanan yang sama.

OpenAI juga tidak akan diam. Menurut laporan, model terdepan dengan kode “Spud” juga menyelesaikan pretraining pada waktu yang kira-kira sama. Kedua perusahaan sedang bersiap untuk IPO mereka di akhir tahun ini. Waktu terungkapnya Mythos, baik karena benar-benar tidak sengaja atau tidak, tepat mengenai titik yang paling meledak-ledak.

Pelopor keamanan atau pemasaran kemampuan?

Kita harus menghadapi pertanyaan yang tidak nyaman: apakah Anthropic benar-benar tidak merilis Mythos karena alasan keamanan, atau apakah ini sebenarnya merupakan pemasaran produk tingkat tertinggi?

Para skeptis punya alasan yang cukup. Dario Amodei dan Anthropic memiliki sejarah dengan cara meningkatkan nilai produk mereka melalui mendramatisasi bahaya model rendering. Jake Handy menulis di Substack: “Peristiwa sandwich, menyembunyikan jejak di Git, penurunan skor diri dalam evaluasi—mungkin semuanya itu nyata, tetapi Anthropic mendapatkan eksposur media dalam skala sebesar itu, dan itu sendiri menunjukkan bahwa itu adalah efek yang mereka inginkan.”

Sebuah perusahaan yang berdiri dari AI security, tetapi konfigurasi CMS internalnya yang salah menyebabkan kebocoran hampir 3000 dokumen; tahun lalu juga, karena kesalahan pada paket perangkat lunak Claude Code, mereka secara tidak sengaja mengekspos hampir 2000 file kode sumber dan lebih dari 500k baris kode, lalu selama proses pembersihan menyebabkan ribuan repositori kode di GitHub ikut terhapus secara tidak sengaja. Sebuah perusahaan yang menjadikan kemampuan keamanan sebagai nilai jual utamanya, tetapi bahkan tidak bisa mengelola proses rilisnya sendiri—kontras seperti ini jauh lebih layak untuk dipertanyakan daripada benchmark apa pun.

Tetapi dari sudut pandang lain, jika kemampuan Mythos memang seperti yang digambarkan, tidak merilisnya justru merupakan pilihan dengan biaya yang sangat tinggi. Anthropic melepaskan pendapatan API, melepaskan pangsa pasar, dan mengunci model terkuat dalam aliansi yang terbatas. Kuota penggunaan 100 juta dolar bukan angka kecil. Untuk perusahaan yang masih mengalami kerugian dan sedang mempersiapkan IPO, ini tidak terlihat seperti keputusan pemasaran murni.

Interpretasi yang lebih masuk akal mungkin adalah: kekhawatiran keamanan itu nyata, tetapi Anthropic juga jelas sadar bahwa narasi “model kami terlalu kuat jadi kami tidak berani merilisnya” itu sendiri adalah bukti kemampuan yang paling meyakinkan. Dua hal bisa sama-sama benar.

Momen “iPhone” keamanan siber?

Apa pun cara Anda memandang motif Anthropic, fakta mendasar yang ditunjukkan Mythos tidak bisa dihindari: pemahaman kode dan kemampuan serangan AI telah melewati ambang batas perubahan yang menentukan.

Model generasi sebelumnya (Opus 4.6) dapat menemukan celah, tetapi hampir tidak mampu menulis exploit. Mythos dapat menemukan celah, menulis exploit, merangkai chain eksploit, melakukan escape dari sandbox, memperoleh hak root, dan melakukannya semuanya secara mandiri. Seorang insinyur yang tidak pernah mendapat pelatihan keamanan bisa membuat Mythos mencari celah sebelum tidur, lalu keesokan paginya bangun dan mendapati laporan exploit yang lengkap dan dapat dijalankan.

Apa artinya? Artinya biaya marginal untuk menemukan dan memanfaatkan celah sedang mendekati nol. Dulu pekerjaan yang memerlukan tim keamanan tingkat atas hingga berbulan-bulan, kini cukup dengan satu panggilan API yang dapat selesai dalam semalam. Ini bukan sekadar “peningkatan efisiensi”; ini adalah perubahan total pada struktur biaya.

Bagi perusahaan keamanan siber tradisional, fluktuasi harga saham dalam jangka pendek mungkin hanya awal dari segalanya. Tantangan sesungguhnya adalah: ketika serangan dan pertahanan sama-sama digerakkan oleh model AI, bagaimana rantai nilai industri keamanan akan direkonstruksi? Analisis Raymond James mengajukan sebuah kemungkinan: fungsi keamanan pada akhirnya bisa tertanam di dalam platform cloud itu sendiri, dan kekuatan penetapan harga bagi vendor keamanan independen akan menghadapi tekanan mendasar.

Bagi seluruh industri perangkat lunak, Mythos lebih seperti sebuah cermin yang menyingkap utang teknis yang terkumpul selama puluhan tahun. Kerentanan yang bertahan selama 27 tahun dalam penelaahan manusia dan pengujian otomatis bukan karena tidak ada yang mencari, tetapi karena perhatian dan kesabaran manusia terbatas. AI tidak memiliki batasan itu.

Untuk industri kripto, sinyal ini terasa lebih tajam. Pasar audit keamanan untuk protokol DeFi dan smart contract selama ini bergantung pada sejumlah kecil perusahaan audit profesional dengan pakar manusia. Jika model pada level Mythos dapat menyelesaikan seluruh alur dari audit kode hingga build exploit secara mandiri, harga, efisiensi, dan kredibilitas audit akan sepenuhnya didefinisikan ulang. Ini bisa menjadi kabar baik bagi keamanan on-chain, atau bisa menjadi akhir dari moat perusahaan audit.

Kompetisi keamanan AI tahun 2026 telah meningkat dari “apakah model bisa memahami kode” menjadi “apakah model bisa membobol sistemmu”. Anthropic memilih untuk lebih dulu menampilkan pembela, tetapi mereka juga mengakui bahwa jendela ini tidak akan terbuka terlalu lama.

Ketika AI menjadi peretas terkuat, satu-satunya jalan keluar adalah membuat AI juga menjadi penjaga terkuat.

Masalahnya adalah: penjaga dan peretas menggunakan model yang sama.

GLM4,07%

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

2 Suka