La prochaine secousse de l'IA : pourquoi le véritable danger n'est pas le tueur SaaS, mais la révolution de la puissance de calcul ?

robot
Création du résumé en cours

Écriture : Bruce

Récemment, tout le secteur technologique et le monde de l’investissement scrutent la même chose : comment l’application de l’IA « tue » la SaaS traditionnelle. Depuis que @AnthropicAI Claude Cowork a montré qu’il pouvait facilement vous aider à rédiger des emails, faire des PPT, analyser des tableaux Excel, une panique autour de la « mort du logiciel » a commencé à se répandre. C’est effectivement effrayant, mais si votre regard s’arrête là, vous risquez de manquer le véritable grand bouleversement.

C’est comme si nous levions tous la tête pour regarder la guerre aérienne des drones, sans voir que la plaque continentale sous nos pieds bouge silencieusement. La véritable tempête, dissimulée sous la surface, dans un coin que la majorité ne voit pas : la base de puissance qui soutient tout l’univers de l’IA, est en train de vivre une « révolution silencieuse ».

Et cette révolution pourrait faire cesser la fête à l’agent vendeur d’IA : Nvidia @nvidia, dont la grande célébration organisée avec soin pourrait se terminer plus tôt que prévu.

Deux voies révolutionnaires qui se croisent

Cette révolution n’est pas un seul événement, mais résulte de l’interconnexion de deux trajectoires technologiques apparemment indépendantes. Elles ressemblent à deux armées en encerclement, exerçant une pression en pince sur la domination des GPU d’Nvidia.

La première voie, c’est la révolution de l’allègement des algorithmes.

Avez-vous déjà pensé qu’un super cerveau n’a pas besoin d’activer toutes ses cellules pour réfléchir ? Évidemment que non. DeepSeek a compris cela et a développé une architecture MoE (modèle d’experts mixtes).

Vous pouvez l’imaginer comme une entreprise qui emploie plusieurs centaines d’experts dans différents domaines. Mais lors d’une réunion pour résoudre un problème, vous n’avez besoin d’appeler que deux ou trois personnes les plus pertinentes, plutôt que de faire un brainstorming avec tout le monde. C’est là toute la finesse du MoE : il permet à un modèle énorme, lors de chaque calcul, d’activer seulement une petite partie des « experts », économisant ainsi énormément de puissance de calcul.

Et le résultat ? Le modèle DeepSeek-V2, qui prétend avoir 236 milliards de « experts » (paramètres), n’active en réalité que 21 milliards lors de chaque tâche — moins de 10 % du total. Pourtant, ses performances peuvent rivaliser avec celles de GPT-4, qui nécessite 100 % de puissance. Que cela signifie-t-il ? La capacité de l’IA, et la puissance de calcul qu’elle consomme, se désolidarisent !

Autrefois, on pensait que plus l’IA était puissante, plus elle brûlait de cartes graphiques. Maintenant, DeepSeek nous montre qu’avec des algorithmes intelligents, on peut atteindre le même résultat avec un dixième du coût. Cela remet en question la nécessité absolue des GPU d’Nvidia.

La deuxième voie, c’est la révolution du « changement de voie » hardware.

Le travail de l’IA se divise en deux phases : l’entraînement et l’inférence. L’entraînement, c’est comme aller à l’école : il faut lire des milliers de livres, et dans ce cas, les GPU, avec leur calcul parallèle « puissant », sont très efficaces. Mais l’inférence, c’est comme notre utilisation quotidienne de l’IA, où la rapidité de réponse est cruciale.

Les GPU ont un défaut naturel lors de l’inférence : leur mémoire (HBM) est externe, ce qui entraîne des latences lors des échanges de données. C’est comme un chef cuisinier dont tous les ingrédients sont dans le frigo à côté, mais chaque fois qu’il veut cuisiner, il doit courir pour aller les chercher, même si c’est rapide. Des entreprises comme Cerebras ou Groq ont décidé de changer la donne en concevant des puces d’inférence dédiées, avec la mémoire (SRAM) directement intégrée à la puce, permettant un accès « zéro latence ».

Le marché a déjà voté avec de l’argent réel. OpenAI, tout en se plaignant des limites des GPU d’Nvidia pour l’inférence, a signé un contrat de 10 milliards de dollars avec Cerebras pour louer leurs services d’inférence. Nvidia elle-même est inquiète : elle a rapidement dépensé 20 milliards de dollars pour racheter Groq, afin de ne pas être laissée derrière dans cette nouvelle course.

Quand ces deux voies se croisent : l’effondrement des coûts

Voici ce qui se passe : un modèle DeepSeek, allégé par l’algorithme MoE, tourne sur une puce Cerebras « sans latence ».

Que se produit-il ?

Une avalanche de coûts.

D’abord, le modèle allégé est si petit qu’il peut tenir entièrement dans la mémoire intégrée de la puce. Ensuite, sans le goulot d’étranglement de la mémoire externe, la vitesse de réponse de l’IA devient stupéfiante. Au final, le coût d’entraînement, grâce à l’architecture MoE, chute de 90 %, et celui de l’inférence, grâce au matériel dédié et à la calculsparsitée, diminue d’un ordre de grandeur. En somme, posséder et faire fonctionner une IA de classe mondiale pourrait ne représenter que 10 à 15 % du coût d’une solution GPU traditionnelle.

Ce n’est pas une simple amélioration, c’est une rupture de paradigme.

Le trône d’Nvidia, en train d’être discrètement délogé

Vous comprenez maintenant pourquoi cela est plus dangereux que la « panique Cowork ».

La valorisation de plusieurs milliers de milliards de dollars d’Nvidia repose sur une histoire simple : l’IA est l’avenir, et cet avenir doit passer par mes GPU. Mais maintenant, cette fondation commence à trembler.

Sur le marché de l’entraînement, même si Nvidia continue à dominer, si ses clients peuvent faire le même travail avec un dixième des cartes, la taille globale du marché pourrait fortement diminuer.

Sur le marché de l’inférence, qui représente un gâteau dix fois plus grand, Nvidia n’a plus l’avantage absolu, face à des acteurs comme Google, Cerebras, et d’autres. Même son plus gros client, OpenAI, commence à se détourner.

Une fois que Wall Street réalisera que la « pioche » d’Nvidia n’est plus la seule, ni même la meilleure option, qu’arrivera-t-il à la valorisation basée sur la « domination éternelle » ? Tout le monde connaît la réponse.

Donc, dans les six prochains mois, le plus grand « cygne noir » pourrait ne pas être une application IA qui élimine un concurrent, mais une simple nouvelle technique : par exemple, une publication sur l’efficacité des algorithmes MoE, ou un rapport montrant une croissance massive des parts de marché des puces d’inférence dédiées, annonçant discrètement que la guerre du calcul entre dans une nouvelle phase.

Lorsque « l’agent vendeur d’outils » ne sera plus le seul choix, son âge d’or pourrait aussi toucher à sa fin.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler

Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)