Qwen Meluncurkan Model Vision‑Language Baru Untuk Meningkatkan Kinerja Pengkodean, Penalaran, Dan AI Multimodal

Secara Singkat

Tim Qwen telah meluncurkan model Qwen3.5-397B-A17B dengan bobot terbuka, memperkenalkan kemajuan besar dalam kinerja multimodal, pembelajaran penguatan, dan efisiensi pelatihan sebagai bagian dari dorongan yang lebih luas menuju agen AI yang lebih mampu dan serba guna.

Qwen Rolls Out New Vision‑Language Model To Advance Coding, Reasoning, And Multimodal AI Performance

Tim Qwen dari Alibaba Cloud telah memperkenalkan model pertama dalam seri Qwen3.5 yang baru, mengungkapkan Qwen3.5-397B-A17B dengan bobot terbuka

Dijuluki sebagai sistem visi-bahasa asli, model ini memberikan kinerja yang kuat dalam penalaran, pengkodean, tugas agen, dan pemahaman multimodal, mencerminkan kemajuan signifikan dalam upaya pengembangan AI skala besar perusahaan

Model ini dibangun di atas arsitektur hibrida yang menggabungkan perhatian linier melalui Gated Delta Networks dengan desain campuran pakar yang jarang, memungkinkan efisiensi tinggi selama inferensi. Meskipun sistem lengkap mengandung 397 miliar parameter, hanya 17 miliar yang diaktifkan untuk setiap proses maju, memungkinkan model ini mempertahankan kemampuan tinggi sambil mengurangi biaya komputasi. Rilis ini juga memperluas cakupan bahasa dan dialek dari 119 menjadi 201, memperluas aksesibilitas bagi pengguna dan pengembang di seluruh dunia.

Qwen3.5 Menandai Lompatan Besar dalam Pembelajaran Penguatan dan Efisiensi Pra-pelatihan

Seri Qwen3.5 memperkenalkan peningkatan substansial dibandingkan Qwen3, yang sebagian besar didorong oleh skala pembelajaran penguatan yang luas di berbagai lingkungan. Alih-alih mengoptimalkan untuk tolok ukur sempit, tim fokus pada meningkatkan tingkat kesulitan tugas dan kemampuan generalisasi, menghasilkan peningkatan kinerja agen di berbagai evaluasi seperti BFCL‑V4, VITA‑Bench, DeepPlanning, Tool‑Decathlon, dan MCP‑Mark. Hasil tambahan akan dijelaskan dalam laporan teknis yang akan datang.

Peningkatan pra-pelatihan mencakup kekuatan, efisiensi, dan fleksibilitas. Qwen3.5 dilatih pada volume data visual-teks yang jauh lebih besar dengan konten multibahasa, STEM, dan penalaran yang diperkuat, memungkinkannya menyamai kinerja model sebelumnya dengan triliun parameter. Peningkatan arsitektur—termasuk MoE dengan sparsity lebih tinggi, perhatian hibrida, penyempurnaan stabilitas, dan prediksi multi-token—memberikan peningkatan throughput besar, terutama pada panjang konteks yang diperluas hingga 32k dan 256k token. Kemampuan multimodal model ini diperkuat melalui fusi teks-gambar awal dan dataset yang diperluas mencakup gambar, materi STEM, dan video, sementara kosakata yang lebih besar sebanyak 250k meningkatkan efisiensi pengkodean dan penguraian di sebagian besar bahasa.

Infrastruktur di balik Qwen3.5 dirancang untuk pelatihan multimodal yang efisien. Strategi paralelisme heterogen memisahkan komponen visi dan bahasa untuk menghindari hambatan, sementara aktivasi jarang memungkinkan throughput hampir penuh bahkan pada beban kerja teks-gambar-video campuran. Pipline FP8 asli mengurangi memori aktivasi sekitar setengah dan meningkatkan kecepatan pelatihan lebih dari 10 persen, menjaga stabilitas pada skala token yang besar.

Pembelajaran penguatan didukung oleh kerangka kerja asinkron penuh yang mampu menangani model dari semua ukuran, meningkatkan pemanfaatan perangkat keras, penyeimbangan beban, dan pemulihan kesalahan. Teknik seperti pelatihan end-to-end FP8, decoding spekulatif, replay router rollout, dan penguncian rollout multi-putaran membantu menjaga konsistensi dan mengurangi ketinggalan gradien. Sistem ini dibangun untuk mendukung alur kerja agen skala besar, memungkinkan interaksi multi-putaran yang mulus dan generalisasi luas di berbagai lingkungan.

Pengguna dapat berinteraksi dengan Qwen3.5 melalui Qwen Chat, yang menawarkan mode Auto, Thinking, dan Fast tergantung pada tugas. Model ini juga tersedia melalui ModelStudio dari Alibaba Cloud, di mana fitur canggih seperti penalaran, pencarian web, dan eksekusi kode dapat diaktifkan melalui parameter sederhana. Integrasi dengan alat pengkodean pihak ketiga memungkinkan pengembang mengadopsi Qwen3.5 ke dalam alur kerja yang sudah ada dengan sedikit hambatan.

Menurut tim Qwen, Qwen3.5 membangun fondasi untuk agen digital universal melalui arsitektur hibrida dan penalaran multimodal asli. Pengembangan di masa depan akan fokus pada integrasi tingkat sistem, termasuk memori permanen untuk pembelajaran lintas sesi, antarmuka berwujud untuk interaksi dunia nyata, mekanisme peningkatan mandiri, dan kesadaran ekonomi untuk operasi otonom jangka panjang. Tujuannya adalah untuk melampaui asisten tugas tertentu menuju agen koheren dan permanen yang mampu mengelola tujuan kompleks selama beberapa hari dengan penilaian yang andal dan sejalan dengan manusia.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan

Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)