Qwen Ra mắt Mô hình Ngôn ngữ‑Hình ảnh Mới để Tiến bộ trong Lập trình, Lý luận và Hiệu suất AI Đa phương tiện

Tóm tắt

Nhóm Qwen đã ra mắt mô hình mở trọng lượng Qwen3.5‑397B‑A17B, mang lại những tiến bộ lớn về hiệu suất đa phương thức, học tăng cường và hiệu quả đào tạo như một phần của nỗ lực mở rộng hướng tới các tác nhân AI đa năng, có khả năng tổng quát cao hơn.

Qwen Rolls Out New Vision‑Language Model To Advance Coding, Reasoning, And Multimodal AI Performance

Nhóm Qwen của Alibaba Cloud đã giới thiệu mô hình đầu tiên trong dòng Qwen3.5 mới, ra mắt Qwen3.5‑397B‑A17B mở trọng lượng

Được định vị như một hệ thống thị giác‑ngôn ngữ bản địa, mô hình mang lại hiệu suất mạnh mẽ trong các nhiệm vụ lý luận, lập trình, tác vụ tác nhân và hiểu đa phương thức, phản ánh bước tiến đáng kể trong nỗ lực phát triển AI quy mô lớn của công ty

Mô hình được xây dựng dựa trên kiến trúc lai kết hợp attention tuyến tính qua Gated Delta Networks với thiết kế hỗn hợp các chuyên gia thưa thớt, cho phép hiệu quả cao trong quá trình suy luận. Mặc dù hệ thống đầy đủ có 397 tỷ tham số, chỉ 17 tỷ tham số được kích hoạt cho mỗi lần truyền dữ liệu, giúp duy trì khả năng cao trong khi giảm chi phí tính toán. Việc phát hành cũng mở rộng phạm vi ngôn ngữ và phương ngữ từ 119 lên 201, mở rộng khả năng tiếp cận cho người dùng và nhà phát triển trên toàn thế giới.

Qwen3.5 Đánh Dấu Một Bước Nhảy Lớn Trong Học Tăng Cường Và Hiệu Quả Tiền Huấn Luyện

Dòng Qwen3.5 mang lại lợi ích đáng kể so với Qwen3, chủ yếu nhờ vào việc mở rộng quy mô học tăng cường trên nhiều môi trường khác nhau. Thay vì tối ưu cho các tiêu chuẩn hẹp, nhóm tập trung vào việc tăng độ khó của nhiệm vụ và khả năng tổng quát, dẫn đến hiệu suất của tác nhân được cải thiện trong các đánh giá như BFCL‑V4, VITA‑Bench, DeepPlanning, Tool‑Decathlon và MCP‑Mark. Các kết quả bổ sung sẽ được trình bày trong báo cáo kỹ thuật sắp tới.

Các cải tiến trong tiền huấn luyện bao gồm về năng lượng, hiệu quả và đa dạng. Qwen3.5 được huấn luyện trên một lượng dữ liệu hình ảnh‑văn bản lớn hơn đáng kể với nội dung đa ngôn ngữ, STEM và lý luận được củng cố, cho phép nó đạt hiệu suất của các mô hình trước đó có hàng tỷ tham số. Các nâng cấp kiến trúc — bao gồm MoE có độ thưa cao hơn, attention lai, cải tiến ổn định và dự đoán đa token — mang lại lợi ích lớn về thông lượng, đặc biệt ở độ dài ngữ cảnh mở rộng 32k và 256k token. Khả năng đa phương thức của mô hình được củng cố thông qua sự kết hợp sớm giữa văn bản và hình ảnh cùng với các bộ dữ liệu mở rộng bao gồm hình ảnh, tài liệu STEM và video, trong khi từ vựng lớn 250k giúp cải thiện hiệu quả mã hóa và giải mã cho hầu hết các ngôn ngữ.

Hạ tầng đằng sau Qwen3.5 được thiết kế để đào tạo đa phương thức hiệu quả. Chiến lược song song dị thể phân tách các thành phần thị giác và ngôn ngữ để tránh tắc nghẽn, trong khi kích hoạt thưa thớt cho phép gần như toàn bộ thông lượng ngay cả trong các tác vụ hỗn hợp văn bản‑hình ảnh‑video. Đường ống FP8 bản địa giảm khoảng một nửa bộ nhớ kích hoạt và tăng tốc độ đào tạo hơn 10 phần trăm, duy trì sự ổn định ở quy mô token lớn.

Học tăng cường được hỗ trợ bởi khung làm việc hoàn toàn bất đồng bộ có khả năng xử lý các mô hình mọi kích cỡ, cải thiện sử dụng phần cứng, cân bằng tải và phục hồi lỗi. Các kỹ thuật như đào tạo end‑to‑end bằng FP8, giải mã dự đoán, phát lại router rollout, và khóa rollout đa lượt giúp duy trì tính nhất quán và giảm độ trễ của gradient. Hệ thống được xây dựng để hỗ trợ quy trình làm việc của các tác nhân quy mô lớn, cho phép tương tác đa lượt liền mạch và tổng quát hóa rộng rãi trên các môi trường.

Người dùng có thể tương tác với Qwen3.5 qua Qwen Chat, cung cấp các chế độ Auto, Thinking và Fast tùy theo nhiệm vụ. Mô hình cũng có sẵn qua ModelStudio của Alibaba Cloud, nơi các tính năng nâng cao như lý luận, tìm kiếm web và thực thi mã có thể được kích hoạt qua các tham số đơn giản. Việc tích hợp với các công cụ lập trình của bên thứ ba cho phép các nhà phát triển áp dụng Qwen3.5 vào quy trình làm việc hiện có một cách dễ dàng.

Theo nhóm Qwen, Qwen3.5 thiết lập nền tảng cho các tác nhân kỹ thuật số phổ quát thông qua kiến trúc lai và khả năng lý luận đa phương thức bản địa. Phát triển trong tương lai sẽ tập trung vào tích hợp hệ thống, bao gồm bộ nhớ liên tục để học hỏi qua các phiên, giao diện thể chất để tương tác với thế giới thực, cơ chế tự cải thiện, và nhận thức kinh tế để vận hành tự chủ lâu dài. Mục tiêu là vượt ra ngoài các trợ lý nhiệm vụ cụ thể để hướng tới các tác nhân nhất quán, liên tục, có khả năng quản lý các mục tiêu phức tạp kéo dài nhiều ngày với đánh giá đáng tin cậy, phù hợp với con người.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$0.1Người nắm giữ:1
    0.00%
  • Vốn hóa:$0.1Người nắm giữ:1
    0.00%
  • Vốn hóa:$2.48KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.74KNgười nắm giữ:2
    1.76%
  • Vốn hóa:$0.1Người nắm giữ:1
    0.00%
  • Ghim