MiniMax:Análise das razões pelas quais o grande modelo não consegue gerar o nome "Ma Jiaqi"

robot
Geração do resumo em andamento

Notícias do site Coinjie, a MiniMax publicou um blog técnico, revelando o processo de investigação da causa raiz de por que seu grande modelo da série m2 não consegue gerar o nome “马嘉祺”. A investigação começou com um caso específico e, por fim, revelou um problema de degradação sistêmica que afeta todo o vocabulário. A causa raiz foi que o tokenizador, durante o treinamento, combinou “嘉祺” em um token independente. Na fase de pré-treinamento, o modelo viu uma grande quantidade de textos da internet, aprendeu esse token, mas nos dados de diálogo posteriores ao treinamento, havia menos de 5 amostras contendo “嘉祺”. Durante o pós-treinamento, tokens de alta frequência como marcações tool_call, símbolos de código, etc., continuaram a atualizar o espaço vetorial ao redor, empurrando tokens de baixa frequência como “嘉祺” na direção errada. O modelo ainda “reconhece” 马嘉祺 e consegue responder com precisão às informações relacionadas, mas a capacidade de gerar esse token foi perdida. A equipe então realizou uma varredura completa em cerca de 200 mil tokens do vocabulário completo e descobriu que aproximadamente 4,9% dos tokens sofreram uma degradação significativa. A degradação mais severa ocorreu no japonês: 29,7% dos tokens japoneses apresentaram degradação significativa, muito acima do coreano com 3,3%, russo com 3,7%, chinês com 3,9% e inglês com 3,5%.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar