Hasil pencarian untuk "CODEX"
Hari Ini
05:17

GPT-5.5 Kembali ke Ujung Terdepan dalam Coding, Tapi OpenAI Mengganti Benchmark Setelah Kalah dari Opus 4.7

Berita Gate tanggal 27 April — SemiAnalysis, sebuah firma analisis semikonduktor dan AI, merilis benchmark perbandingan asisten coding yang mencakup GPT-5.5, Claude Opus 4.7, dan DeepSeek V4. Temuan utamanya: GPT-5.5 menandai kembalinya pertama OpenAI ke ujung terdepan dalam model coding dalam enam bulan, dengan insinyur SemiAnalysis kini bergantian antara Codex dan Claude Code setelah sebelumnya hampir sepenuhnya mengandalkan Claude. GPT-5.5 didasarkan pada pendekatan pra-pelatihan baru yang diberi kode "Spud" dan merupakan ekspansi pertama OpenAI dalam skala pra-pelatihan sejak GPT-4.5. Dalam pengujian praktis, muncul pembagian kerja yang jelas. Claude menangani perencanaan proyek baru dan penyiapan awal, sementara Codex unggul pada perbaikan bug yang membutuhkan penalaran intensif. Codex menunjukkan pemahaman yang lebih kuat tentang struktur data dan penalaran logis, tetapi kesulitan menyimpulkan maksud pengguna yang ambigu. Pada satu tugas di satu dasbor, Claude secara otomatis meniru tata letak halaman referensi tetapi memalsukan dalam jumlah besar data, sedangkan Codex melewatkan tata letak tetapi menyajikan data yang jauh lebih akurat. Analisis mengungkap detail manipulasi benchmark: posting blog OpenAI pada Februari mendorong industri untuk mengadopsi SWE-bench Pro sebagai standar baru untuk benchmark coding. Namun, pengumuman GPT-5.5 beralih ke benchmark baru yang disebut "Expert-SWE." Alasannya, yang terselip dalam catatan kecil, adalah bahwa GPT-5.5 disalip oleh Opus 4.7 pada SWE-bench Pro dan tertinggal jauh dari Mythos 77.8% yang belum dirilis Anthropic. Terkait Opus 4.7, Anthropic menerbitkan analisis pasca-kematian satu minggu setelah rilis, mengakui tiga bug dalam Claude Code yang bertahan selama beberapa minggu dari Maret hingga April, dan memengaruhi hampir semua pengguna. Beberapa insinyur sebelumnya telah melaporkan penurunan performa pada versi 4.6, tetapi diabaikan sebagai pengamatan subjektif. Selain itu, tokenizer baru Opus 4.7 meningkatkan penggunaan token hingga 35%, yang secara terbuka diakui Anthropic—secara efektif merupakan kenaikan harga yang tersembunyi. DeepSeek V4 dinilai sebagai "mampu menyamai laju dengan yang di garis depan tetapi tidak memimpin," dengan memposisikan dirinya sebagai alternatif berbiaya terendah di antara model sumber tertutup. Analisis juga mencatat bahwa "Claude terus mengungguli DeepSeek V4 Pro pada tugas penulisan bahasa Tionghoa dengan kesulitan tinggi," dengan komentar bahwa "Claude menang melawan model Tionghoa di bahasa aslinya." Artikel ini memperkenalkan konsep kunci: harga model harus dievaluasi berdasarkan "biaya per tugas" bukan "biaya per token." Harga GPT-5.5 dua kali lipat dari GPT-5.4 input $5, output per million tokens, tetapi ia menyelesaikan tugas yang sama dengan token yang lebih sedikit, sehingga biaya aktualnya tidak harus lebih tinggi. Data awal SemiAnalysis menunjukkan rasio input-ke-output Codex sebesar 80:1, lebih rendah daripada rasio Claude Code 100:1.
Lainnya
14:41

OpenClaw 2026.4.22 Menyatukan Siklus Hidup Plugin di Codex dan Pi Harness, Mengurangi Waktu Muat Plugin Hingga 90%

Pesan Gate News, 23 April — OpenClaw, platform Agen AI open-source, merilis versi 2026.4.22 pada 22 April, dengan perubahan terbesarnya adalah penyelarasan siklus hidup Codex harness dan Pi harness. Sebelumnya, plugin berperilaku tidak konsisten di antara dua jalur harness tersebut, dengan beberapa hook yang hilang di lingkungan tertentu. Versi baru mengonsolidasikan hook penting termasuk before_prompt_build, before_compaction/after_compaction, after_tool_call, before_message_write, dan llm_input/llm_output/agent_end, sehingga menghilangkan kebutuhan bagi pengembang untuk memelihara implementasi terpisah untuk setiap jalur. Pembaruan ini juga memperkenalkan dukungan middleware async tool_result untuk ekstensi plugin di sisi Codex. Peningkatan performa sangat signifikan: pemuatan plugin kini menggunakan Jiti native, mengurangi waktu startup sebesar 82% hingga 90%, sementara doctor --non-interactive runtime turun sekitar 74%. Tingkat pemikiran default untuk model inferensi telah ditingkatkan dari off/low menjadi medium, memungkinkan keluaran penalaran secara default untuk konfigurasi yang tidak diubah. Perbaikan tambahan mencakup panggilan agen multi-turn Kimi K2.6 yang kini tidak lagi terputus karena korupsi tool_call ID, manajemen memori subprocess Linux yang ditingkatkan dengan penyesuaian oom_score_adj otomatis, serta sistem pemulihan konfigurasi last-known-good baru untuk mencegah crash Gateway akibat penimpaan konfigurasi yang tidak disengaja. Integrasi penyedia baru mencakup kemampuan pembuatan gambar xAI grok-imagine-image dan grok-imagine-image-pro, TTS, dan STT; Tencent Cloud sebagai plugin penyedia resmi dengan model pratinjau Hy3 dan penetapan harga; serta tool web_search bawaan OpenAI, yang menggantikan kanal pencarian terkelola OpenClaw saat pencarian web diaktifkan.
Lainnya
XAI0,93%
08:32

OpenAI Meluncurkan Agen Workspace ChatGPT untuk Otomatisasi Alur Kerja Perusahaan

Berita Gerbang, 23 April — OpenAI mengumumkan peluncuran agen workspace di ChatGPT pada 22 April, memperkenalkan agen AI bersama yang dirancang untuk mengotomatisasi tugas kompleks dan alur kerja yang lebih panjang di berbagai alat dan tim dalam sebuah organisasi. Agen ini didukung oleh Codex dan beroperasi di lingkungan berbasis cloud dengan akses ke file, eksekusi kode, aplikasi terhubung, dan fungsi memori.
Lainnya
03:49

OpenAI Codex团队修复OpenClaw身份验证故障,显著改善智能体行为

OpenClaw从Pi切换到Codex harness,以修复静默的身份验证回退问题,并通过两份PR分别解决桥接与回退;修复后,智能体从浅层心跳轮询转向完整的工作循环,从而实现进展。 摘要:OpenClaw的Codex harness优化解决了一个关键的身份验证缺陷:当使用OpenAI模型与Codex时,系统会静默回退到Pi harness。两份拉取请求修复了身份验证桥接,并防止静默回退,进而更改运行时适配器。结果,智能体的行为从浅层心跳轮询演变为完整的工作循环:读取上下文、分析任务、编辑仓库并验证进展,从而在心跳之间提升连续性与可见性。
Lainnya
07:05

Penghapusan Claude Code Anthropic Memicu Reaksi Balik dari Pengembang; OpenAI Mendapat Dukungan Komunitas

Anthropic 从 Pro 方案中移除 Claude Code,因开发者转向 OpenAI 而遭到批评;Codex 仍保持免费/基础,GPT-5.4 和 Image 2.0 提升性能,推动大量用户迁移。 Ringkasan: Artikel ini membahas penghapusan Claude Code dari paket $20 Pro oleh Anthropic, yang memicu reaksi balik dari para pengembang yang menyebutnya sebagai kenaikan harga yang terselubung dan risiko reliabilitas. Artikel ini membandingkan langkah tersebut dengan kebijakan OpenAI untuk mempertahankan Codex di level gratis dan dasar, sekaligus menyoroti performa model yang kuat dari GPT-5.4 dan ChatGPT Images 2.0, serta mencatat migrasi pengguna yang cepat ke OpenAI, dengan Codex dilaporkan melampaui 4 juta pengguna aktif mingguan.
Lainnya
04:09

GPT-5.5 Muncul di Pemilih OpenAI Codex tetapi Mengembalikan Error 400, Saat Ini Tidak Tersedia

Pesan Gate News, 22 April — GPT-5.5 telah muncul di dropdown pemilih model untuk OpenAI Codex, ditempatkan di bagian paling atas daftar. Namun, saat pengguna memilih GPT-5.5 dan mengirimkan permintaan, Codex mengembalikan error 400 dengan pesan "Model 'gpt-5.5' tidak didukung saat menggunakan Codex dengan akun ChatGPT." Model saat ini tidak tersedia. OpenAI belum merilis pengumuman resmi atau dokumentasi apa pun mengenai GPT-5.5 hingga saat ini.
Lainnya