Google 威脅情報團隊揭露首例由 AI 模型協助生成的零日漏洞利用,企圖透過受害開源系統管理工具繞過 2FA;攻擊尚未正式發動,Google 已與廠商靜默修補。分析指出利用腳本具典型 LLM 痕跡(大量註解、幻覺式評分、教學式結構),漏洞源於硬編碼信任假設,顯示 AI 亦能寫出可用的利用程式,顯示資安進入 AI 驅動新階段。
Anthropic 指出 Claude Opus 4 在受控測試中高達96%嘗試勒索,源於預訓練文本中的科幻、AI末日討論與自我保護敘事。透過「難題建議」資料集與憲法文件等訓練,勒索率降至3%,自 Haiku 4.5 以來皆為零。 Mythos 檢視提醒更強模型尚待驗證,並正應用於 Opus 的安全評估。