O próximo terremoto da IA: por que o verdadeiro perigo não é o assassino de SaaS, mas a revolução do poder computacional?

robot
Geração de resumo em curso

Escrito por: Bruce

Recentemente, todo o setor de tecnologia e o mundo dos investimentos estão atentos a uma mesma questão: como as aplicações de IA estão “matando” o modelo tradicional de SaaS. Desde que @AnthropicAI apresentou o Claude Cowork, demonstrando como ele pode facilmente ajudar a escrever emails, criar PPTs e analisar planilhas Excel, uma onda de pânico sobre o “software morreu” começou a se espalhar. Isso é realmente assustador, mas se você ficar só nisso, pode estar perdendo o verdadeiro grande terremoto.

É como se todos nós olhássemos para os drones no céu em uma batalha aérea, enquanto ninguém percebe que a grande placa continental sob nossos pés está se movendo silenciosamente. A verdadeira tempestade está escondida debaixo da superfície, em um canto que a maioria das pessoas não vê: a base de poder de cálculo que sustenta todo o mundo de IA está passando por uma “revolução silenciosa”.

E essa revolução pode fazer com que o vendedor de ferramentas de IA — a Nvidia @nvidia — encerre seu grande evento muito antes do que todos imaginam.

Duas rotas de revolução que se cruzam

Essa revolução não é um evento único, mas uma interseção de duas linhas de tecnologia aparentemente independentes. Elas se assemelham a dois exércitos cercando, formando uma ofensiva em pinça contra o domínio das GPUs da Nvidia.

A primeira rota é a revolução na otimização de algoritmos.

Você já pensou que um supercérebro, ao pensar, realmente precisa ativar todas as suas células cerebrais? Claramente, não. A DeepSeek entendeu isso e criou uma arquitetura de MoE (modelo de especialistas mistos).

Você pode imaginar isso como uma empresa que emprega centenas de especialistas em diferentes áreas. Mas, ao resolver problemas em reuniões, só precisa chamar duas ou três pessoas mais relevantes, ao invés de fazer todos brainstormarem juntos. Essa é a inteligência do MoE: ele permite que um modelo enorme, em cada cálculo, ative apenas uma pequena parte dos “especialistas”, economizando imensa capacidade de cálculo.

E qual é o resultado? O modelo DeepSeek-V2, nominalmente com 236 bilhões de “especialistas” (parâmetros), só ativa cerca de 21 bilhões em cada tarefa — menos de 10% do total. E seu desempenho consegue rivalizar com o GPT-4, que precisa de 100% de capacidade. O que isso significa? A capacidade da IA e o consumo de poder de cálculo estão se desacoplando!

Antes, todos assumiam que quanto mais forte a IA, mais GPU se queimava. Agora, a DeepSeek mostra que, com algoritmos inteligentes, é possível alcançar o mesmo resultado com apenas uma décima parte do custo. Isso coloca uma grande interrogação sobre a necessidade contínua das GPUs da Nvidia.

A segunda rota é a revolução no hardware — a “mudança de faixa”.

O trabalho de IA divide-se em duas fases: treinamento e inferência. O treinamento é como estudar, onde é preciso ler milhares de livros; nessa fase, GPUs de alta potência e paralelismo são essenciais. Mas a inferência, que é o uso cotidiano da IA, valoriza mais a velocidade de resposta.

As GPUs têm uma limitação natural na inferência: sua memória (HBM) é externa, o que causa latência na troca de dados. É como um chef que tem os ingredientes na geladeira do outro cômodo — mesmo que seja rápido, ainda assim leva tempo para buscar. Empresas como Cerebras e Groq criaram chips dedicados à inferência, com memória SRAM embutida no chip, permitindo acesso “sem latência”.

O mercado já demonstrou sua preferência com dinheiro de verdade. A OpenAI reclama da performance das GPUs da Nvidia na inferência, mas fechou um contrato de 10 bilhões de dólares com a Cerebras para usar seus chips. A Nvidia, por sua vez, ficou preocupada e comprou a Groq por 20 bilhões de dólares, para não ficar para trás nessa nova corrida.

Quando essas duas rotas se cruzam: uma avalanche de custos

Vamos juntar tudo: um modelo DeepSeek otimizado com MoE, rodando em um chip Cerebras de acesso “zero latência”.

O que acontece?

Uma avalanche de custos.

Primeiro, o modelo otimizado é pequeno o suficiente para caber inteiramente na memória do chip. Sem a limitação da memória externa, a velocidade de resposta da IA é surpreendente. Como resultado final: o custo de treinamento, com a arquitetura MoE, cai 90%; o de inferência, com hardware dedicado e cálculo esparso, diminui ainda mais, em uma ordem de grandeza. Assim, o custo total para possuir e operar uma IA de nível mundial pode ser apenas 10-15% do que um sistema tradicional de GPU.

Isso não é uma simples melhoria; é uma mudança de paradigma.

O trono da Nvidia está sendo silenciosamente despojado

Agora você deve entender por que isso é mais perigoso do que a “reação de Cowork”.

Os bilhões de dólares de valor de mercado da Nvidia hoje se sustentam numa narrativa simples: a IA é o futuro, e esse futuro depende das GPUs dela. Mas agora, a base dessa história está sendo abalada.

No mercado de treinamento, mesmo que a Nvidia continue monopolizando, se os clientes puderem fazer o trabalho com uma décima parte das GPUs, o tamanho total do mercado pode encolher drasticamente.

No mercado de inferência, que é dez vezes maior, a Nvidia não tem vantagem absoluta e enfrenta concorrentes como Google, Cerebras e outros. Até mesmo seu maior cliente, a OpenAI, está migrando.

Se Wall Street perceber que as “pás” da Nvidia — suas ferramentas principais — deixam de ser a única ou a melhor opção, qual será o impacto na avaliação baseada na expectativa de “monopólio eterno”? Acho que todos já sabem a resposta.

Portanto, os maiores “blefes” do próximo meio ano podem não ser uma IA eliminando outra, mas uma notícia técnica aparentemente simples: uma nova pesquisa sobre a eficiência do algoritmo MoE, ou um relatório mostrando uma grande fatia de mercado para chips de inferência dedicados, anunciando silenciosamente uma nova fase na guerra pelo poder de cálculo.

Quando as “pás” dos vendedores de ferramentas deixam de ser a única opção, a era de ouro deles pode estar chegando ao fim.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Fixar

Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)