A nova startup de IA da China, Moonshot AI, lançou recentemente um relatório técnico sobre o modelo Kimi, propondo uma nova arquitetura chamada “Attention Residuals”, que tenta reescrever o design residual que o Transformer tem utilizado há muito tempo. Pouco depois da publicação do relatório, Elon Musk também comentou nas redes sociais: “Impressive work from Kimi”, chamando a atenção para esta tecnologia.
O modelo de IA chinês Kimi estende a atenção entre os modelos
O foco desta vez do Kimi está na abordagem de um mecanismo muito central dentro do Transformer, mas raramente repensado: a Conexão Residual. Desde o ResNet, a maioria dos modelos simplesmente “soma de volta” a saída de cada camada, mantendo os pesos iguais. Isso é simples e estável, mas quando o modelo se torna muito profundo, começam a surgir problemas: a informação acumulada nas camadas anteriores pode se tornar excessiva, fazendo com que novos sinais tenham dificuldade em se destacar, podendo até ser submersos, dificultando o treinamento do modelo.
O que Kimi faz é estender o mecanismo de atenção, originalmente utilizado “entre tokens”, para “entre camadas do modelo”. Nos Attention Residuals, cada camada não recebe mais informações de todas as camadas anteriores de forma média, mas sim através da atenção, “selecionando” quais camadas são mais importantes. Ou seja, o modelo não apenas acumula informações continuamente, mas seleciona ativamente as informações úteis com base na entrada atual.
Kimi consegue aumentar a eficiência em 1,25 vezes sem aumentar a latência de inferência
Mas se cada camada olhasse para todas as camadas históricas, o custo seria muito alto. Por isso, Kimi propôs uma abordagem de comprometimento chamada Block Attention Residuals: primeiro, divide o modelo em vários blocos, mantendo a soma original dentro de cada bloco, mas utilizando atenção para seleção entre os blocos. Isso permite manter a capacidade de “selecionar informações” enquanto reduz significativamente a carga de memória e computação, podendo ser aplicado diretamente em modelos existentes.
Os resultados mostram que Kimi, em um modelo grande, quase não aumentou a latência de inferência (menos de 2%), mas obteve um aumento de cerca de 1,25 vezes na eficiência e melhorou em vários indicadores de teste. Isso indica que essa modificação não é apenas teoricamente atraente, mas também possui valor prático. No passado, a atenção resolvia a “relação entre palavras”, enquanto Kimi leva o modelo a pensar sobre “quais informações usar entre diferentes camadas”.
Em resumo, o modelo não apenas lê dados, mas também começa a aprender como revisitar conteúdos que já foram processados anteriormente.
Este artigo, elogiado por Musk como “impressionante”, revela qual é a arma secreta do modelo de IA chinês Kimi. A primeira aparição foi no ABMedia da Chain News.