マスク氏が称賛:「印象的だ!」中国のAIモデルKimiの秘密兵器は何だ?

ChainNewsAbmedia

中国のAI新創Moonshot AIのモデルKimiが最近、技術報告を発表し、「Attention Residuals」という新しいアーキテクチャを提案しました。
Transformerが長年使用してきた残差設計を改訂しようとしています。
報告が発表されて間もなく、Elon MuskもSNSで「Impressive work from Kimi(Kimiの作品は印象的)」とコメントし、この技術は迅速に注目を集めました。

中国のAIモデルKimiは、attentionをモデル間に拡張しました。

今回のKimiの焦点は、実はTransformerの中で非常に核心的でありながら再考されることが少ないメカニズム、即ちResidual Connectionを扱うことです。
ResNet以来、ほとんどのモデルは各層の出力を「直接戻して」おり、重みは全て同じです。
この方法はシンプルで安定していますが、モデルが非常に深くなると問題が生じ始めます:前に蓄積された情報が増えすぎて、新しい信号が逆に機能しにくくなり、さらには埋もれてしまい、モデルの訓練がより困難になります。

Kimiのアプローチは、attentionメカニズムを元々「トークン間」で使用するのではなく、「モデル層と層の間」に拡張することです。
Attention Residualsでは、各層はもはや過去の全層の情報を平均的に受け取るのではなく、attentionを通じて「どの層がより重要か」を「選択」します。
つまり、モデルは常に累積するだけでなく、その時点での入力に基づいて、有用な情報を能動的に選び出すことができます。

Kimiは、推論遅延を増やさずに1.25倍の効率を向上させることに成功しました。

しかし、もし各層が全ての過去の層を見ると、コストが高すぎます。
そこでKimiは妥協策として、Block Attention Residualsを提案しました:まずモデルをいくつかのブロックに分割し、ブロック内では元の合計方法を維持しますが、ブロック間でのみattentionを使って選択します。
これにより、「情報を選択する」能力を保持しつつ、メモリと計算負担を大幅に軽減することができ、実際に既存のモデルに直接適用できます。

結果から見ると、Kimiは大規模モデルでほとんど推論遅延を増やさず(2%未満)、約1.25倍の効率向上を得ており、複数のテスト指標でも進展が見られました。
これはこの改良が単なる理論的な美しさだけでなく、実際に価値を持つことを示しています。
過去にattentionが解決していたのは「単語同士の関係」であり、Kimiはさらにモデルが「異なる層間でどの情報を使用すべきか」を考え始めるようにしました。

簡単に言うと、モデルは単にデータを読むだけでなく、過去に計算した内容をどうやって見直すかを学び始めています。

この記事は、マスクが称賛した「印象的!」な内容であり、中国のAIモデルKimiの秘密兵器は何か?
最初に登場したのは、链新闻ABMediaです。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
コメントなし