L’équipe Qwen a lancé le modèle Qwen3.5‑397B‑A17B à poids ouvert, apportant des avancées majeures en performance multimodale, apprentissage par renforcement et efficacité d’entraînement dans le cadre d’une démarche plus large visant à créer des agents d’IA plus performants et polyvalents.
L’équipe Qwen d’Alibaba Cloud a présenté le premier modèle de sa nouvelle série Qwen3.5, dévoilant le Qwen3.5‑397B‑A17B à poids ouvert.
Positionné comme un système natif vision‑langage, le modèle offre de solides performances en raisonnement, codage, tâches d’agents et compréhension multimodale, marquant une avancée significative dans les efforts de développement d’IA à grande échelle de l’entreprise.
Le modèle repose sur une architecture hybride combinant une attention linéaire via Gated Delta Networks avec un design sparse mixture‑of‑experts, permettant une grande efficacité lors de l’inférence. Bien que le système complet contienne 397 milliards de paramètres, seuls 17 milliards sont activés à chaque passage, ce qui lui permet de maintenir une haute capacité tout en réduisant le coût computationnel. La sortie s’accompagne également d’une extension de la couverture linguistique et dialectale, passant de 119 à 201, élargissant ainsi l’accessibilité pour les utilisateurs et développeurs du monde entier.
Qwen3.5 marque un saut majeur dans l’apprentissage par renforcement et l’efficacité du préentraînement
La série Qwen3.5 introduit des gains substantiels par rapport à Qwen3, principalement grâce à une mise à l’échelle extensive de l’apprentissage par renforcement sur une large gamme d’environnements. Plutôt que d’optimiser pour des benchmarks étroits, l’équipe s’est concentrée sur l’augmentation de la difficulté des tâches et la généralisation, ce qui a permis d’améliorer la performance des agents dans des évaluations telles que BFCL‑V4, VITA‑Bench, DeepPlanning, Tool‑Decathlon et MCP‑Mark. D’autres résultats seront détaillés dans un prochain rapport technique.
Les améliorations du préentraînement concernent la puissance, l’efficacité et la polyvalence. Qwen3.5 est entraîné sur un volume de données visuelles‑textuelles beaucoup plus important, avec un contenu renforcé en multilingue, STEM et raisonnement, lui permettant d’égaler la performance de modèles antérieurs de plusieurs billions de paramètres. Les améliorations architecturales — notamment un MoE à plus haute sparsité, une attention hybride, des raffinements de stabilité et une prédiction multi‑tokens — offrent des gains majeurs en débit, en particulier pour des longueurs de contexte étendues de 32k et 256k tokens. Les capacités multimodales du modèle sont renforcées par une fusion précoce texte‑vision et des ensembles de données élargis couvrant images, matériaux STEM et vidéos, tandis qu’un vocabulaire plus grand de 250k améliore l’efficacité d’encodage et de décodage dans la majorité des langues.
L’infrastructure derrière Qwen3.5 est conçue pour un entraînement multimodal efficace. Une stratégie de parallélisme hétérogène sépare les composants vision et langage pour éviter les goulets d’étranglement, tandis que l’activation sparse permet un débit quasi complet même sur des charges de travail mixtes texte‑image‑vidéo. Un pipeline natif FP8 réduit la mémoire d’activation d’environ la moitié et augmente la vitesse d’entraînement de plus de 10 %, tout en maintenant la stabilité à grande échelle de tokens.
L’apprentissage par renforcement est supporté par un cadre entièrement asynchrone capable de gérer des modèles de toutes tailles, améliorant l’utilisation du matériel, l’équilibrage de charge et la récupération en cas de panne. Des techniques telles que la formation end‑to‑end en FP8, le décodage spéculatif, la répétition de rollout router et le verrouillage de rollout multi‑tours aident à maintenir la cohérence et à réduire la staleness des gradients. Le système est conçu pour supporter des flux de travail d’agents à grande échelle, permettant des interactions multi‑tours fluides et une généralisation étendue à travers différents environnements.
Les utilisateurs peuvent interagir avec Qwen3.5 via Qwen Chat, qui propose des modes Auto, Thinking et Fast selon la tâche. Le modèle est également accessible via ModelStudio d’Alibaba Cloud, où des fonctionnalités avancées telles que le raisonnement, la recherche web et l’exécution de code peuvent être activées par des paramètres simples. L’intégration avec des outils de codage tiers permet aux développeurs d’adopter Qwen3.5 dans leurs flux de travail existants avec un minimum de friction.
Selon l’équipe Qwen, Qwen3.5 établit une base pour des agents numériques universels grâce à son architecture hybride et son raisonnement multimodal natif. Les développements futurs se concentreront sur l’intégration au niveau du système, notamment la mémoire persistante pour l’apprentissage inter‑session, des interfaces incarnées pour l’interaction avec le monde réel, des mécanismes d’amélioration auto‑dirigée et une conscience économique pour une opération autonome à long terme. L’objectif est de dépasser les assistants spécifiques à une tâche pour créer des agents cohérents, persistants, capables de gérer des objectifs complexes sur plusieurs jours avec un jugement fiable et aligné sur l’humain.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Qwen déploie un nouveau modèle de vision-langage pour améliorer la programmation, le raisonnement et les performances de l'IA multimodale
En résumé
L’équipe Qwen a lancé le modèle Qwen3.5‑397B‑A17B à poids ouvert, apportant des avancées majeures en performance multimodale, apprentissage par renforcement et efficacité d’entraînement dans le cadre d’une démarche plus large visant à créer des agents d’IA plus performants et polyvalents.
L’équipe Qwen d’Alibaba Cloud a présenté le premier modèle de sa nouvelle série Qwen3.5, dévoilant le Qwen3.5‑397B‑A17B à poids ouvert.
Positionné comme un système natif vision‑langage, le modèle offre de solides performances en raisonnement, codage, tâches d’agents et compréhension multimodale, marquant une avancée significative dans les efforts de développement d’IA à grande échelle de l’entreprise.
Le modèle repose sur une architecture hybride combinant une attention linéaire via Gated Delta Networks avec un design sparse mixture‑of‑experts, permettant une grande efficacité lors de l’inférence. Bien que le système complet contienne 397 milliards de paramètres, seuls 17 milliards sont activés à chaque passage, ce qui lui permet de maintenir une haute capacité tout en réduisant le coût computationnel. La sortie s’accompagne également d’une extension de la couverture linguistique et dialectale, passant de 119 à 201, élargissant ainsi l’accessibilité pour les utilisateurs et développeurs du monde entier.
Qwen3.5 marque un saut majeur dans l’apprentissage par renforcement et l’efficacité du préentraînement
La série Qwen3.5 introduit des gains substantiels par rapport à Qwen3, principalement grâce à une mise à l’échelle extensive de l’apprentissage par renforcement sur une large gamme d’environnements. Plutôt que d’optimiser pour des benchmarks étroits, l’équipe s’est concentrée sur l’augmentation de la difficulté des tâches et la généralisation, ce qui a permis d’améliorer la performance des agents dans des évaluations telles que BFCL‑V4, VITA‑Bench, DeepPlanning, Tool‑Decathlon et MCP‑Mark. D’autres résultats seront détaillés dans un prochain rapport technique.
Les améliorations du préentraînement concernent la puissance, l’efficacité et la polyvalence. Qwen3.5 est entraîné sur un volume de données visuelles‑textuelles beaucoup plus important, avec un contenu renforcé en multilingue, STEM et raisonnement, lui permettant d’égaler la performance de modèles antérieurs de plusieurs billions de paramètres. Les améliorations architecturales — notamment un MoE à plus haute sparsité, une attention hybride, des raffinements de stabilité et une prédiction multi‑tokens — offrent des gains majeurs en débit, en particulier pour des longueurs de contexte étendues de 32k et 256k tokens. Les capacités multimodales du modèle sont renforcées par une fusion précoce texte‑vision et des ensembles de données élargis couvrant images, matériaux STEM et vidéos, tandis qu’un vocabulaire plus grand de 250k améliore l’efficacité d’encodage et de décodage dans la majorité des langues.
L’infrastructure derrière Qwen3.5 est conçue pour un entraînement multimodal efficace. Une stratégie de parallélisme hétérogène sépare les composants vision et langage pour éviter les goulets d’étranglement, tandis que l’activation sparse permet un débit quasi complet même sur des charges de travail mixtes texte‑image‑vidéo. Un pipeline natif FP8 réduit la mémoire d’activation d’environ la moitié et augmente la vitesse d’entraînement de plus de 10 %, tout en maintenant la stabilité à grande échelle de tokens.
L’apprentissage par renforcement est supporté par un cadre entièrement asynchrone capable de gérer des modèles de toutes tailles, améliorant l’utilisation du matériel, l’équilibrage de charge et la récupération en cas de panne. Des techniques telles que la formation end‑to‑end en FP8, le décodage spéculatif, la répétition de rollout router et le verrouillage de rollout multi‑tours aident à maintenir la cohérence et à réduire la staleness des gradients. Le système est conçu pour supporter des flux de travail d’agents à grande échelle, permettant des interactions multi‑tours fluides et une généralisation étendue à travers différents environnements.
Les utilisateurs peuvent interagir avec Qwen3.5 via Qwen Chat, qui propose des modes Auto, Thinking et Fast selon la tâche. Le modèle est également accessible via ModelStudio d’Alibaba Cloud, où des fonctionnalités avancées telles que le raisonnement, la recherche web et l’exécution de code peuvent être activées par des paramètres simples. L’intégration avec des outils de codage tiers permet aux développeurs d’adopter Qwen3.5 dans leurs flux de travail existants avec un minimum de friction.
Selon l’équipe Qwen, Qwen3.5 établit une base pour des agents numériques universels grâce à son architecture hybride et son raisonnement multimodal natif. Les développements futurs se concentreront sur l’intégration au niveau du système, notamment la mémoire persistante pour l’apprentissage inter‑session, des interfaces incarnées pour l’interaction avec le monde réel, des mécanismes d’amélioration auto‑dirigée et une conscience économique pour une opération autonome à long terme. L’objectif est de dépasser les assistants spécifiques à une tâche pour créer des agents cohérents, persistants, capables de gérer des objectifs complexes sur plusieurs jours avec un jugement fiable et aligné sur l’humain.