Qwen Lança Novo Modelo de Visão-Linguagem para Avançar no Desempenho de Codificação, Raciocínio e IA Multimodal

Resumido

A equipa Qwen lançou o modelo de peso aberto Qwen3.5‑397B‑A17B, apresentando avanços importantes no desempenho multimodal, aprendizagem por reforço e eficiência de treino, como parte de um esforço mais amplo para criar agentes de IA mais capazes e de uso geral.

Qwen Rolls Out New Vision‑Language Model To Advance Coding, Reasoning, And Multimodal AI Performance

A equipa Qwen da Alibaba Cloud apresentou o primeiro modelo da sua nova série Qwen3.5, revelando o Qwen3.5‑397B‑A17B de peso aberto.

Posicionado como um sistema nativo de visão e linguagem, o modelo oferece um desempenho forte em raciocínio, codificação, tarefas de agentes e compreensão multimodal, refletindo um avanço significativo nos esforços de desenvolvimento de IA em grande escala da empresa.

O modelo é construído com uma arquitetura híbrida que combina atenção linear através de Redes Delta Gateadas com um design de mistura de especialistas esparso, permitindo alta eficiência durante a inferência. Apesar de o sistema completo conter 397 mil milhões de parâmetros, apenas 17 mil milhões são ativados em cada passagem, permitindo manter uma alta capacidade enquanto reduz o custo computacional. A versão também amplia a cobertura de línguas e dialetos de 119 para 201, aumentando a acessibilidade para utilizadores e desenvolvedores em todo o mundo.

Qwen3.5 Marca Um Grande Salto Na Aprendizagem por Reforço E Eficiência de Pré-treinamento

A série Qwen3.5 apresenta ganhos substanciais em relação ao Qwen3, impulsionados principalmente por uma escala extensa de aprendizagem por reforço em uma vasta gama de ambientes. Em vez de otimizar para benchmarks restritos, a equipa focou em aumentar a dificuldade das tarefas e a generalização, resultando numa melhoria do desempenho dos agentes em avaliações como BFCL‑V4, VITA‑Bench, DeepPlanning, Tool‑Decathlon e MCP‑Mark. Resultados adicionais serão detalhados num próximo relatório técnico.

As melhorias no pré-treinamento abrangem potência, eficiência e versatilidade. O Qwen3.5 é treinado com um volume significativamente maior de dados visuais-textuais, com conteúdos reforçados em multilinguismo, STEM e raciocínio, permitindo-lhe igualar o desempenho de modelos anteriores com trilhões de parâmetros. Atualizações arquitetónicas — incluindo MoE com maior esparsidade, atenção híbrida, melhorias de estabilidade e previsão de múltiplos tokens — proporcionam ganhos de throughput consideráveis, especialmente em comprimentos de contexto estendidos de 32k e 256k tokens. As capacidades multimodais do modelo são reforçadas através de fusão precoce de texto e visão e de conjuntos de dados ampliados que cobrem imagens, materiais STEM e vídeo, enquanto um vocabulário maior de 250k melhora a eficiência de codificação e decodificação na maioria das línguas.

A infraestrutura por trás do Qwen3.5 foi desenhada para um treino multimodal eficiente. Uma estratégia de paralelismo heterogéneo separa os componentes de visão e linguagem para evitar gargalos, enquanto a ativação esparsa permite um throughput quase total mesmo em cargas de trabalho mistas de texto, imagem e vídeo. Um pipeline nativo FP8 reduz a memória de ativação em cerca de metade e aumenta a velocidade de treino em mais de 10 por cento, mantendo a estabilidade em escalas massivas de tokens.

A aprendizagem por reforço é suportada por uma estrutura totalmente assíncrona capaz de lidar com modelos de todos os tamanhos, melhorando a utilização de hardware, o balanceamento de carga e a recuperação de falhas. Técnicas como treino end-to-end em FP8, decodificação especulativa, replay de roteador de rollout e bloqueio de rollout multi-turno ajudam a manter a consistência e a reduzir a estagnação do gradiente. O sistema foi construído para suportar fluxos de trabalho de agentes em grande escala, permitindo interações multi-turno sem problemas e uma ampla generalização em diferentes ambientes.

Os utilizadores podem interagir com o Qwen3.5 através do Qwen Chat, que oferece modos Auto, Thinking e Fast, dependendo da tarefa. O modelo também está disponível através do ModelStudio da Alibaba Cloud, onde funcionalidades avançadas como raciocínio, pesquisa na web e execução de código podem ser ativadas através de parâmetros simples. A integração com ferramentas de codificação de terceiros permite aos desenvolvedores incorporar o Qwen3.5 em fluxos de trabalho existentes com mínima fricção.

Segundo a equipa Qwen, o Qwen3.5 estabelece uma base para agentes digitais universais através da sua arquitetura híbrida e raciocínio multimodal nativo. O desenvolvimento futuro focará na integração a nível de sistema, incluindo memória persistente para aprendizagem entre sessões, interfaces incorporadas para interação com o mundo real, mecanismos de melhoria auto-dirigida e consciência económica para operação autónoma a longo prazo. O objetivo é avançar além de assistentes específicos de tarefas, rumo a agentes coerentes e persistentes capazes de gerir objetivos complexos de vários dias com julgamento fiável e alinhado com humanos.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Fixar

Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)