Theo theo dõi của 1M AI News, nhóm Meituan Longmao đã mở mã nguồn LongCat-Next, một mô hình đa phương thức nguyên bản dựa trên kiến trúc MoE, với 3 tỷ tham số kích hoạt, tích hợp năm khả năng: hiểu văn bản, thị giác, tạo hình ảnh, hiểu và tổng hợp giọng nói trong một khung tự hồi quy duy nhất. Mô hình và bộ phân tách từ điển đi kèm đã được mở mã nguồn theo giấy phép MIT, trọng số đã có trên HuggingFace.
Thiết kế cốt lõi của LongCat-Next là phương pháp DiNA (tự hồi quy nguyên bản rời rạc): bằng cách thiết kế bộ phân tách từ điển và bộ giải mã phù hợp cho từng phương thức, chuyển đổi tín hiệu hình ảnh và âm thanh thành token rời rạc, chia sẻ cùng không gian nhúng với văn bản, sử dụng dự đoán token tiếp theo thống nhất để hoàn thành tất cả các nhiệm vụ. Thành phần chính của thị giác, dNaViT (Vision Transformer độ phân giải nguyên bản rời rạc), trích xuất đặc trưng hình ảnh thành “từ thị giác”, hỗ trợ phân tách từ và giải mã động, duy trì chất lượng tạo hình ảnh tốt ngay cả khi nén 28 lần, đặc biệt nổi bật trong việc hiển thị chữ.
Trong so sánh mô hình cùng mức tham số kích hoạt (A3B), các kết quả chính của LongCat-Next là:
Trong so sánh ngang về khả năng hiểu và sinh ra mô hình thống nhất, điểm MMMU của LongCat-Next đạt 70.6, vượt xa NEO-unify (68.9), và rõ rệt hơn BAGEL (55.3) cùng Ovis-U1 (51.1), các phương án mô hình thống nhất trước đó. Hiệu suất của SWE-Bench 43.0 và bộ chuẩn gọi công cụ của dòng Tau2 cũng cho thấy kiến trúc đa phương thức thống nhất này không làm giảm khả năng xử lý văn bản thuần túy hay của Agent.