Anthropic Ungkap Claude Sonnet 4.6, Menyajikan Kinerja Hampir Opus dan Kemampuan Konteks Panjang yang Diperluas

2026-02-18 13:24:40

Singkatnya

Claude Sonnet 4.6 dari Anthropic memperkenalkan peningkatan besar yang menghadirkan performa hampir setara Opus, kemampuan pengkodean dan penggunaan komputer yang lebih kuat, serta jendela konteks satu juta token untuk semua pengguna dengan harga yang sama seperti versi sebelumnya.

Perusahaan riset dan keamanan AI Anthropic mengumumkan bahwa mereka telah memperkenalkan Claude Sonnet 4.6, yang digambarkan sebagai model Sonnet paling mampu hingga saat ini. Rilis ini dirancang sebagai peningkatan penuh di bidang pengkodean, penggunaan komputer, penalaran konteks panjang, perencanaan agen, pekerjaan pengetahuan, dan desain, dengan jendela konteks satu juta token yang tersedia dalam versi beta. Untuk pengguna paket Gratis dan Pro, Sonnet 4.6 menjadi model default di claude.ai dan Claude Cowork, dengan harga yang tidak berubah dari Sonnet 4.5.

Pembaruan ini diposisikan sebagai langkah yang membawa performa kelas atas ke khalayak yang lebih luas. Pengembang yang menguji model ini sejak awal melaporkan bahwa peningkatan dalam konsistensi, mengikuti instruksi, dan pemahaman konteks membuatnya lebih disukai tidak hanya dibandingkan Sonnet 4.5 tetapi, dalam banyak kasus, juga dibandingkan model Opus 4.5 dari akhir 2025 yang lebih canggih. Tugas-tugas yang sebelumnya memerlukan sistem kelas Opus—terutama yang terkait dengan alur kerja kantor dunia nyata—sekarang dianggap dapat dicapai dengan Sonnet 4.6. Perusahaan juga menyoroti lonjakan yang signifikan dalam kemampuan penggunaan komputer, area di mana model Sonnet sebelumnya tertinggal.

Anthropic menekankan bahwa model ini telah menjalani evaluasi keamanan yang ekstensif. Peneliti internal menggambarkan Sonnet 4.6 sebagai menunjukkan perilaku keamanan yang kuat dan tanpa tanda-tanda ketidaksesuaian risiko tinggi, yang digunakan perusahaan untuk memperkuat posisi mereka secara umum dalam pengembangan AI yang bertanggung jawab.

Pembahasan tentang kemampuan penggunaan komputer mencerminkan argumen yang lebih luas tentang nilai sistem AI yang dapat mengoperasikan perangkat lunak secara langsung daripada melalui API. Anthropic mencatat bahwa banyak organisasi bergantung pada alat warisan yang tidak dapat diotomatisasi dengan mudah, dan bahwa model yang mampu berinteraksi dengan komputer seperti manusia dapat mengurangi kebutuhan akan integrasi khusus.

Benchmark seperti OSWorld, yang mensimulasikan lingkungan perangkat lunak nyata, menunjukkan peningkatan stabil selama enam belas bulan pengembangan Sonnet. Pengguna awal Sonnet 4.6 melaporkan bahwa model sekarang dapat menangani tugas seperti menavigasi spreadsheet yang kompleks atau menyelesaikan formulir web multi-langkah dengan tingkat yang mendekati keahlian manusia, meskipun masih tertinggal dari pengguna ahli. Pada saat yang sama, perusahaan mengakui risiko seperti serangan injeksi prompt dan mengklaim resistensi yang lebih baik dibandingkan versi sebelumnya.

Sonnet 4.6 Meningkatkan Kualitas Kode, Penalaran, dan Penggunaan Alat

Selain penggunaan komputer, Anthropic melaporkan peningkatan luas di seluruh benchmark. Dalam Claude Code, pengguna lebih memilih Sonnet 4.6 dibandingkan Sonnet 4.5 dalam sebagian besar pengujian, dengan menyebutkan pemahaman konteks yang lebih baik, pengurangan duplikasi, dan eksekusi multi-langkah yang lebih andal. Banyak juga yang lebih menyukainya dibandingkan Opus 4.5, menggambarkannya sebagai model yang kurang rentan terhadap overengineering dan lebih konsisten dalam mengikuti instruksi. Jendela konteks yang diperluas memungkinkan model bekerja di seluruh basis kode atau koleksi riset besar, dan Anthropic menyoroti kinerjanya dalam simulasi Vending‑Bench Arena, di mana model mengadopsi strategi investasi jangka panjang yang mengungguli pesaing.

Perusahaan mencatat bahwa pelanggan awal telah melihat peningkatan di bidang pengembangan frontend, analisis keuangan, dan kualitas desain visual. Sonnet 4.6 juga hadir dengan pembaruan di seluruh Platform Pengembang Claude dan API, termasuk mode berpikir adaptif dan diperluas, kompresi konteks, peningkatan pemrosesan pencarian web, dan kemampuan penggunaan alat yang diperluas. Model ini kini tersedia di semua paket Claude, termasuk tingkat gratis, dan dapat diakses melalui Claude Cowork, Claude Code, API, dan platform cloud utama.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.