Pada 18 Oktober, laboratorium riset AI nof1 yang berfokus pada pasar keuangan meluncurkan sebuah eksperimen yang belum pernah terjadi sebelumnya: enam model AI kelas dunia—GPT-5, Gemini 2.5 Pro, Grok-4, Claude Sonnet 4.5, DeepSeek V3.1, Qwen3 Max—masing-masing mengelola dana nyata sebesar $10.000 di Hyperliquid untuk melakukan perdagangan kripto secara langsung.

Peringkat dan Nilai Akun Saat Ini: Hingga malam 30 Oktober, peringkat terbaru adalah sebagai berikut:
Daftar ini mengalami perubahan dramatis dibandingkan beberapa hari lalu. DeepSeek masih memimpin, namun tingkat keuntungannya turun tajam dari 95,71% menjadi 56,71%, nilai akun dari $19.570 turun ke $15.671, menguap hampir $4.000. Qwen3 juga mengalami penurunan, dari 53,68% menjadi 25,20%. Lebih mencolok lagi, Claude Sonnet 4.5 berubah dari sedikit untung menjadi rugi 7%, sementara kerugian GPT 5 semakin melebar hingga 72%, hampir mendekati likuidasi total.
Pasar berada di jalur naik, perbedaan strategi antar model mulai tampak:


Keberhasilan DeepSeek dibangun di atas prinsip “mengikuti tren”: 95% waktu dalam posisi long, percaya tren akan berlanjut. Dalam tren naik, strategi ini memberinya keuntungan tertinggi 95%. Namun saat tren berbalik, strategi yang sama membuatnya rugi 30%.
Ini mengungkap masalah kunci: strategi mengikuti tren harus disertai mekanisme take profit dan cut loss yang efektif. Jika hanya “biarkan profit berlari” tanpa “batasi kerugian”, satu kali pembalikan besar bisa menghapus sebagian besar keuntungan.
DeepSeek mungkin terlalu percaya pada nilai “hold jangka panjang”, mengabaikan ketidakpastian pasar. Keuntungan terbesar $7.378 berasal dari satu transaksi ETH yang di-hold 60 jam, pengalaman sukses ini mungkin memperkuat keyakinan “long term”. Namun pasar keuangan tidak selalu satu arah, tren bisa berbalik kapan saja.

Qwen3 membuktikan nilai cash lewat performanya. 82,4% waktu cash, di fase naik tampak “kehilangan peluang”, tapi di fase turun justru “menghindari kerugian”.
Penurunan 26% vs 32%, tampak hanya beda 6 poin, tapi efek compounding membuat selisih ini makin besar. Lebih penting lagi, Qwen3 menyisakan lebih banyak modal dan keunggulan psikologis, saat pasar stabil bisa cepat masuk lagi. DeepSeek jika terus turun, bisa terjebak dalam siklus “floating loss-ragu-miss rebound”.
Performa BTC Buy & Hold adalah tamparan bagi semua AI “pintar”. Strategi ini tanpa analisis teknikal, tanpa algoritma rumit, tanpa sering ganti posisi, tapi kini peringkat ketiga, mengalahkan separuh model AI.
Hasil ini menunjukkan: dalam trading, lebih penting menghindari kesalahan daripada sering benar. Gemini dengan 193 transaksi rugi 66%, BTC Buy & Hold tanpa transaksi tetap menjaga modal. Siapa lebih sukses? Jawabannya jelas.
Selain Qwen3, hampir semua AI menunjukkan kelemahan serius dalam manajemen risiko:
Ini membuktikan, AI bisa “membaca” data pasar, bisa “mengeksekusi” instruksi trading, tapi dalam kemampuan inti trading yaitu manajemen risiko, mereka masih jauh dari matang.
Setelah melihat data dan analisis, kita mudah terpesona oleh return DeepSeek 56% atau kerugian Gemini 66%. Namun sebelum mengambil kesimpulan, kita harus menyadari keterbatasan sistemik eksperimen ini—yang mungkin lebih penting dari hasilnya sendiri.
Eksperimen ini hanya berlangsung 12 hari, dari 18 hingga 30 Oktober. 12 hari di pasar kripto? Mungkin hanya sepotong kecil dari satu siklus bull-bear.
Yang kita lihat “naik-puncak-turun” hanyalah satu siklus kecil, lebih mirip keberuntungan. Jika eksperimen dimulai di puncak pasar, atau terjadi crash harian seperti “519” (turun 30% sehari), peringkat bisa terbalik total.
Return 56% DeepSeek sangat bergantung pada karakteristik pasar 12 hari ini. Strategi long 95% menang di tren naik, tapi jika sideways 3 bulan, strategi ini akan habis oleh biaya dan cut loss berulang.
Demikian juga, cash 82% Qwen3 unggul di pasar sideways, tapi di bull run seperti 2021 bisa tertinggal jauh. Jika BTC naik dari $10.000 ke $100.000, cash 80% berarti hanya dapat 20% kenaikan.
Data 12 hari, tidak cukup membuktikan efektivitas jangka panjang strategi apapun.
Semua 6 model AI menerima data pasar dan kerangka instruksi trading yang sama. Ini seperti 6 manajer dana membaca riset yang sama—yang diuji bukan kemampuan riset, tapi disiplin eksekusi.
Di dunia nyata, alpha berasal dari asimetri informasi. Hedge fund top punya sistem tracking on-chain eksklusif, bisa melihat transfer whale; punya data order flow institusi, bisa mendeteksi pergerakan besar lebih awal.
Tapi di eksperimen ini, semua AI melihat data yang sama. Ini lebih mirip “lomba eksekusi”, bukan “lomba inovasi strategi”.
Kita tidak bisa menilai, jika DeepSeek diberi data on-chain eksklusif, Gemini diberi analisis sentimen Twitter eksklusif, siapa yang benar-benar unggul.
Setiap AI hanya mengelola modal $10.000. Di Hyperliquid, ini sangat kecil—bisa keluar masuk kapan saja, slippage bisa diabaikan, tidak ada dampak likuiditas, tidak perlu pecah order besar.
Tapi di dunia nyata, mengelola $10 juta dan $10.000 itu sangat berbeda.
Eksperimen ini menguji “kelincahan modal kecil”, bukan “ketahanan strategi yang bisa diskalakan”.
Selama eksperimen, pasar relatif stabil, volatilitas sedang. Kita tidak melihat:
Sistem risk management semua AI belum diuji tekanan ekstrim, padahal inilah tantangan nyata trader kripto. Bagaimana mekanisme stop loss DeepSeek jika “limit down berturut-turut tidak bisa dieksekusi”? Tidak tahu. Apakah close cepat Qwen3 tetap efektif saat exchange down? Juga tidak tahu.
Faktor keberuntungan dalam 12 hari eksperimen ini mungkin jauh lebih besar dari yang kita kira.
Ini eksperimen satu kali, tidak ada “musim kedua” untuk validasi stabilitas strategi. Kita tidak tahu:
Hasil saat ini lebih mirip 6 orang melempar dadu, DeepSeek kebetulan dapat angka tertinggi. Tapi itu tidak berarti dadunya lebih baik, mungkin hanya lebih beruntung.
Setelah melihat semua keterbatasan ini, Anda mungkin bertanya: apakah eksperimen ini masih bermakna?
Ada, tapi maknanya bukan pada “siapa juara”. Nilai sejati eksperimen ini adalah:
Tapi jika Anda karena melihat DeepSeek peringkat satu lalu ingin menyerahkan uang Anda padanya, atau meniru strateginya, itu kesalahan besar.
Juara 12 hari, bukan berarti juara 12 bulan; juara $10.000, bukan berarti juara $1.000.000; juara di satu siklus, bukan berarti juara di siklus berikutnya.
Investasi tidak pernah punya jawaban sederhana. Eksperimen ini memberi data berharga, tapi keterbatasan di balik data mungkin lebih layak direnungkan daripada datanya sendiri.
Data laporan edisi ini disusun oleh WolfDAO, jika ada pertanyaan silakan hubungi kami untuk update;
Penulis: Riffi / WolfDAO( X : @10xWolfdao )