Elon Musk elogia: Impressionante! Qual é a arma secreta do modelo de IA chinês Kimi?

ChainNewsAbmedia

A nova startup de IA da China, Moonshot AI, lançou recentemente um relatório técnico sobre o modelo Kimi, propondo uma nova arquitetura chamada “Attention Residuals”, que tenta reescrever o design residual que o Transformer tem utilizado há muito tempo. Pouco depois da publicação do relatório, Elon Musk também comentou nas redes sociais: “Impressive work from Kimi”, chamando a atenção para esta tecnologia.

O modelo de IA chinês Kimi estende a atenção entre os modelos

O foco desta vez do Kimi está na abordagem de um mecanismo muito central dentro do Transformer, mas raramente repensado: a Conexão Residual. Desde o ResNet, a maioria dos modelos simplesmente “soma de volta” a saída de cada camada, mantendo os pesos iguais. Isso é simples e estável, mas quando o modelo se torna muito profundo, começam a surgir problemas: a informação acumulada nas camadas anteriores pode se tornar excessiva, fazendo com que novos sinais tenham dificuldade em se destacar, podendo até ser submersos, dificultando o treinamento do modelo.

O que Kimi faz é estender o mecanismo de atenção, originalmente utilizado “entre tokens”, para “entre camadas do modelo”. Nos Attention Residuals, cada camada não recebe mais informações de todas as camadas anteriores de forma média, mas sim através da atenção, “selecionando” quais camadas são mais importantes. Ou seja, o modelo não apenas acumula informações continuamente, mas seleciona ativamente as informações úteis com base na entrada atual.

Kimi consegue aumentar a eficiência em 1,25 vezes sem aumentar a latência de inferência

Mas se cada camada olhasse para todas as camadas históricas, o custo seria muito alto. Por isso, Kimi propôs uma abordagem de comprometimento chamada Block Attention Residuals: primeiro, divide o modelo em vários blocos, mantendo a soma original dentro de cada bloco, mas utilizando atenção para seleção entre os blocos. Isso permite manter a capacidade de “selecionar informações” enquanto reduz significativamente a carga de memória e computação, podendo ser aplicado diretamente em modelos existentes.

Os resultados mostram que Kimi, em um modelo grande, quase não aumentou a latência de inferência (menos de 2%), mas obteve um aumento de cerca de 1,25 vezes na eficiência e melhorou em vários indicadores de teste. Isso indica que essa modificação não é apenas teoricamente atraente, mas também possui valor prático. No passado, a atenção resolvia a “relação entre palavras”, enquanto Kimi leva o modelo a pensar sobre “quais informações usar entre diferentes camadas”.

Em resumo, o modelo não apenas lê dados, mas também começa a aprender como revisitar conteúdos que já foram processados anteriormente.

Este artigo, elogiado por Musk como “impressionante”, revela qual é a arma secreta do modelo de IA chinês Kimi. A primeira aparição foi no ABMedia da Chain News.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário