アリ工程師がClaudeコードのソースコードを逆向きに解析し、Auto Modeの四層決定パイプラインメカニズムを明らかにする

ゲートニュースによると、3月25日、蚂蚁集团のエンジニアでありフロントエンドフレームワークUmi.jsの作者である陳成氏がClaude Code 2.1.81のソースコードをリバースエンジニアリングし、Auto Modeの意思決定メカニズムを完全に再現しました。主要な発見は以下の通りです:ツールの呼び出しは四層の意思決定パイプラインを経由し、最初の三層で判断できない場合に限り、独立したAI分類器を呼び出して安全性を審査します。

四層のパイプラインは順に以下の通りです:第一層は既存の権限ルールをチェックし、ヒットすれば直接許可。第二層はacceptEditsモード(ファイル編集許可レベル)を模擬し、このモードで通過すればリスクが低いと判断し、分類器をスキップ。第三層は読み取り専用ツールのホワイトリスト(Read、Grep、Glob、LSP、WebSearchなど)をチェックし、これらは状態を変更しないため無条件で許可。これらの条件に該当しない場合に限り、第四層に進み、Claude Sonnetに安全分類のためのAPIリクエストを送信します。

分類器の設計上の重要なポイントは、コストと遅延のバランスを考慮し、常にSonnetを使用しOpusは使わないこと、temperatureを0に設定して出力の決定性を確保すること、分類器を「自主AIプログラミングエージェントの安全監視員」と定義し、提示詞注入、範囲拡大、偶発的な損害の三つのリスクを保護対象とすることです。ユーザーのCLAUDE.md設定ファイルは分類器のコンテキストに注入され、ユーザーの意図判断の基準となります。

ブロックルールは22以上のカテゴリをカバーし、force push、mainブランチへの直推、外部コードのダウンロードと実行、デプロイ、データ漏洩、自身の権限の改変、リモートコード実行の仕組み作成、資格情報の漏洩などを含みます。一方、許可される例外は7種類:テスト用のハードコーディングされたキー、作業ディレクトリ内のローカルファイル操作、GETリクエストの読み取りのみ、宣言済み依存関係のインストール、公式ツールチェーンのインストール、設定資格情報の取得と送信、現在の作業ブランチへのプッシュです。

システムにはまた、連続3回拒否または合計20回拒否後にシステムを手動確認にダウングレードするフィードバック制御も設定されています。headlessモードではエージェントを直接停止します。分類器が利用できない場合は、フラグによって「fail-closed」(直接拒否)または「fail-open」(手動確認にダウングレード)を制御します。

Auto Modeにおける行動促進詞の注入には細かな頻度制御があり、5ターンごとに注入され、5回の注入周期のうち最初の1回は完全版(約800字、「即時実行、割り込み削減、行動優先」など六つの指示を含む)で、それ以降の4回は簡略版を挿入し、コンテキストウィンドウの占有と行動の安定性のバランスを取っています。

原文表示
免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
コメントなし