MiniMax M2.7 apporte un modèle d'IA de 230 milliards de paramètres à l'infrastructure NVIDIA

robot
Création du résumé en cours

Ted Hisokawa

12 avril 2026 01:37

MiniMax publie M2.7, un modèle d’experts mélangés de 230 milliards de paramètres optimisé pour les GPU NVIDIA avec jusqu’à 2,7x de gains de débit sur le matériel Blackwell.

MiniMax a lancé M2.7, un modèle d’IA à 230 milliards de paramètres à poids ouverts conçu spécifiquement pour les flux de travail d’agents autonomes, désormais disponible dans l’écosystème d’inférence de NVIDIA, y compris les derniers GPU Blackwell Ultra.

Le modèle représente une avancée significative en termes d’efficacité dans l’IA d’entreprise. Malgré ses 230 milliards de paramètres au total, M2.7 n’active que 10 milliards de paramètres par jeton — un taux d’activation de 4,3 % obtenu grâce à une architecture (MoE) de mélange d’experts avec 256 experts locaux. Cela permet de maintenir des coûts d’inférence gérables tout en conservant la capacité de raisonnement d’un modèle beaucoup plus grand.

Chiffres de performance sur Blackwell

NVIDIA a collaboré avec des communautés open source pour optimiser M2.7 pour les charges de travail en production. Deux optimisations clés — un noyau RMS Norm fusionné QK et l’intégration FP8 MoE de TensorRT-LLM — ont permis d’obtenir des améliorations substantielles du débit sur les GPU Blackwell Ultra.

Les tests avec un jeu de données de séquences d’entrée/sortie de 1K/1K ont montré que vLLM atteignait jusqu’à 2,5x d’amélioration du débit, tandis que SGLang a atteint 2,7x. Ces deux optimisations ont été mises en œuvre en un seul mois, ce qui suggère qu’il existe encore un potentiel d’amélioration des performances.

Architecture technique

M2.7 supporte une longueur de contexte d’entrée de 200 000 sur 62 couches, utilisant une auto-attention causale multi-tête avec des Embeddings de Position Rotary (RoPE). Un mécanisme de routage d’experts top-k n’active que 8 des 256 experts pour chaque entrée, ce qui permet au modèle de maintenir des coûts d’inférence faibles malgré son échelle.

L’architecture cible les défis de codage et les tâches complexes d’agents — des flux de travail où les systèmes d’IA doivent planifier, exécuter et itérer de manière autonome plutôt que de répondre à des prompts uniques.

Options de déploiement

Les développeurs peuvent accéder à M2.7 via plusieurs canaux. La pile de référence NemoClaw de NVIDIA offre un déploiement en un clic pour exécuter des agents autonomes avec le runtime OpenShell. Le modèle est également disponible via des microservices conteneurisés NIM de NVIDIA pour des déploiements sur site, dans le cloud ou hybrides.

Pour les équipes souhaitant personnaliser le modèle, la bibliothèque NeMo AutoModel de NVIDIA supporte le fine-tuning avec des recettes publiées. Des flux de travail d’apprentissage par renforcement sont disponibles via NeMo RL avec des configurations d’exemple pour des longueurs de séquence de 8K et 16K.

Des points de terminaison GPU gratuits et accélérés sur build.nvidia.com permettent de tester avant de s’engager dans l’infrastructure. Les poids ouverts sont également disponibles sur Hugging Face pour des déploiements en auto-hébergement.

Cette sortie positionne MiniMax comme une alternative crédible aux modèles fermés d’OpenAI et d’Anthropic pour les entreprises construisant des systèmes d’IA autonomes, en particulier celles déjà investies dans l’infrastructure NVIDIA.

Source de l’image : Shutterstock

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler