
Fireworks AI publie une version préliminaire de Fireworks Training, positionnant l’entreprise non seulement comme fournisseur d’une infrastructure d’inférence pure, mais comme une plateforme « entraînement + déploiement » intégrée. Cette société d’infrastructure IA, fondée par Lin Qiao (ancien ingénieur de Meta, et ayant participé à la construction de PyTorch), est actuellement valorisée à 4 milliards de dollars, avec un volume de tokens traités par jour atteignant 150 000 milliards.
L’architecture en trois niveaux de Fireworks Training est conçue pour des utilisateurs aux parcours techniques différents, permettant aux équipes produit, aux ingénieurs ML et aux chercheurs d’effectuer sur la même plateforme l’ensemble du flux complet, de l’entraînement au déploiement :
Training Agent (niveau sans code) : destiné aux équipes produit sans base en infrastructure ML, il décrit la tâche et permet d’effectuer le processus de bout en bout en téléversant simplement les données ; prend actuellement en charge le fine-tuning LoRA
Managed Training (niveau ingénieur) : destiné aux ingénieurs ML, prend en charge le SFT, le DPO et le fine-tuning par apprentissage par renforcement ; inclut la capacité d’entraînement en paramètres complets
Training API (niveau recherche) : destiné aux équipes de recherche, permet de définir des fonctions de perte et des boucles d’entraînement sur mesure ; prend en charge des algorithmes d’apprentissage par renforcement comme GRPO, DAPO, etc.
L’échelle d’entraînement en paramètres complets présente un écart considérable : du Qwen3 8B sur un nœud unique, jusqu’au modèle à plusieurs milliards/billions de paramètres Kimi K2.5 sur 64 GPU NVIDIA B200, couvrant la gamme d’échelles complètes des modèles open source principaux actuels.
Parmi les clients d’inférence existants de Fireworks AI, trois acteurs majeurs de l’application IA ont déjà mené un entraînement par apprentissage par renforcement de pointe et publié des données d’efficacité concrètes.
Vercel : a entraîné, pour le produit de génération de code v0, un modèle de correction automatique ; le taux de génération de code sans erreur atteint 93 %, contre 62 % pour Claude Sonnet 3.5 dans des conditions équivalentes ; la latence de bout en bout s’améliore d’environ 40 fois par rapport au modèle propriétaire utilisé précédemment.
Genspark : a effectué un fine-tuning par apprentissage par renforcement du modèle open source à plusieurs centaines/milliards de paramètres Kimi K2 afin de construire un agent de recherche approfondie ; le nombre d’appels d’outils augmente de 33 %, et le coût d’inférence baisse de 50 %.
Cursor : a réalisé de manière distribuée l’entraînement par apprentissage par renforcement de Composer 2 sur 3 à 4 clusters dans le monde ; actuellement classé #1 sur CursorBench, et réalisant le partage de la même réserve de ressources GPU entre l’entraînement et l’inférence de production.
La différence technologique différenciante que Fireworks AI met en avant repose sur la « cohérence numérique » entre l’entraînement et l’inférence. Pour les modèles MoE (mélange d’experts), de petites déviations numériques de l’état caché peuvent entraîner un effet d’amplification en cascade dans la décision d’acheminement des experts, rendant impossible la reproduction intégrale du comportement du modèle appris en environnement d’entraînement lors de l’inférence.
Fireworks publie la valeur de la divergence KL entre l’entraînement et l’inférence pour tous les modèles pris en charge ; pour tous les modèles, elle est inférieure à 0.01, fournissant une référence de cohérence quantifiable permettant aux développeurs d’évaluer la stabilité du comportement du modèle lors du passage de l’entraînement au déploiement en production.
Fireworks AI est une société d’infrastructure d’inférence IA, fondée par Lin Qiao (ancien ingénieur de Meta), qui a participé à la construction de PyTorch. L’entreprise est actuellement valorisée à 4 milliards de dollars, traite 150 000 milliards de tokens par jour, et ses clients principaux incluent Cursor, Vercel, Genspark, etc., soit des applications IA grand public.
Training Agent est destiné aux équipes produit sans base d’infrastructure ML (opération sans code) ; Managed Training est destiné aux ingénieurs ML (prend en charge le SFT, le DPO et l’entraînement en paramètres complets par apprentissage par renforcement) ; Training API est destiné aux équipes de recherche (permet de définir des fonctions de perte et des boucles d’entraînement sur mesure, et prend en charge des algorithmes comme GRPO, DAPO, etc.).
La divergence KL mesure l’écart numérique entre les environnements d’entraînement et d’inférence ; plus l’écart est grand, plus le comportement du modèle après déploiement devient instable. C’est particulièrement critique pour les modèles MoE : de petites déviations peuvent être amplifiées en différences de décision d’acheminement. Fireworks AI, en publiant des indicateurs quantifiables, permet aux développeurs d’évaluer objectivement la qualité de cohérence du modèle, de l’entraînement jusqu’au déploiement.