DeepSeek meluncurkan “Mode Pakar” dan “Mode Visual”, apakah ini pemanasan terakhir sebelum peluncuran resmi V4?

動區BlockTempo

DeepSeek pada 8 April diam-diam mendorong pengujian tiga mode: Quick, Expert, dan Vision; tiga jalur dialihkan, dan dianggap oleh komunitas sebagai pemanasan terakhir sebelum peluncuran resmi V4.
(Info sebelumnya: DeepSeek V4 menolak NVIDIA, mencari Huawei! Alibaba, ByteDance, dan Tencent berebut membeli chip Ascend 950PR)
(Tambahan latar belakang: DeepSeek V4 mengumumkan untuk meninggalkan NVIDIA! Sejauh mana perang “kemandirian komputasi” AI Tiongkok untuk menembus jalan buntu ini?)

Daftar Isi Artikel

Toggle

  • Jalur tiga arah: cepat, ahli, visual masing-masing menjalankan tugas
  • Kontroversi mode ahli: perbedaan arsitektur, atau rekayasa prompt?
  • Makna sebenarnya V4: jika komputasi benar-benar terlepas

Pada dini hari tanggal 8 April, situs web dan aplikasi DeepSeek secara bersamaan mendorong pembaruan. Antarmuka berubah menjadi tiga opsi mode. Ini bukan peluncuran formal yang sepenuhnya lengkap, melainkan pengujian pendahuluan untuk sebagian pengguna, tetapi begitu pesannya keluar, komunitas langsung mengaitkannya dengan jadwal rilis V4.

Jalur tiga arah: cepat, ahli, visual masing-masing menjalankan tugas

Pembagian tugas ketiga mode tersebut cukup jelas:

Mode Cepat (Fast Mode) adalah opsi bawaan, ditujukan untuk percakapan harian dan respons instan. Mode ini menggunakan model ringan dengan latensi rendah, tanpa batasan penggunaan, tetapi dukungan lampiran hanya terbatas pada ekstraksi teks, tidak memproses gambar atau suara.

Mode Ahli (Expert Mode) ditujukan untuk tugas penalaran yang kompleks, mendukung mode deep thinking, dan hasil uji komunitas menunjukkan bahwa satu kali penalaran dapat memicu waktu berpikir lebih dari 500 detik. Mode ini memerlukan antrean pada jam sibuk, serta tidak mendukung unggahan lampiran dan suara. Saat ini masih berada pada tahap pengujian dan belum dibuka untuk semua pengguna.

Mode Visual (Vision Mode) adalah yang paling simbolis di antara ketiganya. Ini adalah pertama kalinya DeepSeek mendukung input visual secara resmi di sisi konsumen. Kemampuan multimodal tidak lagi sekadar opsi teknis pada level API, melainkan langsung ditujukan untuk pengguna umum.

Gagasan keseluruhannya adalah: membagi konsumsi komputasi berdasarkan jenis tugas—arus cepat untuk kebutuhan frekuensi tinggi, arus ahli untuk penalaran berdaya komputasi tinggi, dan arus visual untuk input gambar dan teks. Desain seperti ini sendiri tidaklah baru, tetapi DeepSeek adalah model terkemuka di Tiongkok pertama yang melakukan hal seperti itu pada level produk konsumen.

Kontroversi mode ahli: perbedaan arsitektur, atau rekayasa prompt?

Perbincangan komunitas mengenai pengujian kali ini dengan cepat terfokus pada satu dugaan teknis.

Sebagian pengguna pengujian mendapati kualitas jawaban mode ahli hanya meningkat sedikit dibanding mode cepat, dan perbedaannya tidak sebesar yang dibayangkan. Yang lebih penting, ada pengguna yang langsung bertanya kepada modelnya sendiri, dan balasannya adalah: kedua mode memiliki arsitektur lapisan dasar yang sama, perbedaannya terutama berasal dari penyesuaian system prompt.

Jika ini benar, maka inti dari “mode ahli” lebih mirip sistem prompt yang telah disetel, bukan model penalaran independen.

DeepSeek tidak memberi respons resmi atas tuduhan ini. Dari sudut pandang eksternal, ada dua kemungkinan penafsiran: pertama, ini hanyalah konfigurasi sementara pada tahap peluncuran bertahap (gray scale), dan lapisan pemodelan yang sebenarnya baru akan diaktifkan setelah peluncuran V4; kedua, tujuan desain berlapis memang bukan untuk melakukan saklar pada level model, melainkan untuk mengontrol konsumsi komputasi melalui anggaran penalaran dan konfigurasi sistem yang berbeda, sehingga lebih banyak pengguna dapat menggunakan layanan secara bersamaan.

Makna sebenarnya V4: jika komputasi benar-benar terlepas

Tampilan antarmuka tiga mode itu sendiri adalah peningkatan dari sisi pengalaman pengguna. Tetapi V4 yang terhubung di belakangnya—itulah bobot sebenarnya dari pembaruan ini.

Tim DeepSeek telah mengonfirmasi bahwa V4 ditunda hingga April, dengan alasan utama pekerjaan adaptasi mendalam terhadap chip Ascend Huawei. Spesifikasi teknis yang diketahui terbilang cukup agresif: skala 1 triliun parameter, tes kemampuan encoding SWE-bench dengan tingkat lolos 81%, harga API $0.30/MTok, serta sebuah rangkaian teknologi memori jangka panjang hasil riset mandiri bernama Engram: sebuah mekanisme memori bersyarat yang memungkinkan model menyimpan preferensi pengguna dan konteks lintas percakapan.

Namun yang paling patut diamati dari V4 adalah pilihan di lapisan dasar komputasinya.

Jika V4 benar-benar dijalankan sepenuhnya pada chip buatan dalam negeri seperti Huawei Ascend dan Cambricon, maka ia akan menjadi model bahasa besar mainstream pertama di skala konsumen yang benar-benar menghindari ekosistem NVIDIA CUDA (meski karena kita tahu ada banyak chip NVIDIA yang diselundupkan masuk ke Tiongkok, kondisi sebenarnya di balik itu tentu lebih rumit).

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar