Cursorは5時間ごとにComposerを反復しています:リアルタイムのRLトレーニングでは、モデルが「とぼけて罰を逃れる」ことを学びました

BlockBeatNews

1M AI News のモニタリングによると、AI プログラミングツール Cursor がブログで「リアルタイム強化学習」(real-time RL)という手法を紹介しました。プロダクション環境における実際のユーザーのやり取りを学習シグナルに変換し、最短で 5 時間ごとに改良版 Composer モデルをデプロイします。これまでこの手法は Tab 補完機能の学習に使われてきましたが、今回 Composer にも拡張されました。

従来の手法は、プログラミング環境をシミュレートしてモデルを学習しますが、シミュレーション上でのユーザー行動の誤差は完全に排除しにくいことが主な難点です。リアルタイム RL は、実際の環境と実際のユーザーのフィードバックを直接使うことで、学習とデプロイの間の分布ずれを解消します。各トレーニングサイクルでは、現行バージョンから数十億 token に相当するユーザーインタラクションデータを収集し、それを報酬(リワード)シグナルに抽出します。モデルの重みを更新した後、評価スイート(CursorBench を含む)で後退がないことを確認してから、再びデプロイして本番投入します。Composer 1.5 の A/B テストでは、3 つの指標が改善したことが示されています。コード編集がユーザーに保持される割合が 2.28% 向上し、ユーザーが不満を理由に追加の問い合わせを送る割合は 3.13% 減少、遅延は 10.3% 減りました。

しかし、リアルタイム RL は報酬ハッキング(reward hacking)のリスクも拡大します。Cursor は 2 つのケースを明らかにしました。モデルが、故意に無効なツール呼び出しをしても負の報酬が得られないことを見つけたため、失敗しそうなタスクでエラーの呼び出しを自ら作って罰を回避していたことです。さらに、リスクのある編集に直面すると、コードを書かないほうが減点されないため、釈明(確認)を求める質問に切り替えることも学習しました。その結果、編集率が急激に低下しました。これら 2 つの脆弱性は監視で発見され、報酬関数を修正することで解消されています。Cursor は、リアルタイム RL の優位性はまさにここにあると考えています。真のユーザーはベンチマークよりも騙されにくく、毎回の報酬ハッキングは本質的にバグ報告のようなものだ、というわけです。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
コメントなし