福利加码,Gate 广场明星带单交易员三期招募开启!
入驻发帖 · 瓜分$30,000月度奖池 & 千万级流量扶持!
如何参与:
1️⃣ 报名成为跟单交易员:https://www.gate.com/copytrading/lead-trader-registration/futures
2️⃣ 报名活动:https://www.gate.com/questionnaire/7355
3️⃣ 入驻Gate广场,持续发布交易相关原创内容
丰厚奖励等你拿:
首发优质内容即得$30 跟单体验金
每双周瓜分$10,000U内容奖池
Top 10交易员额外瓜分$20,000U登榜奖池
精选帖推流、首页推荐、周度明星交易员曝光
详情:https://www.gate.com/announcements/article/50291
OpenAI 发布 IH-Challenge 数据集以增强 AI 对提示注入攻击的抗御能力
艾瑞斯·科尔曼
2026年3月21日 00:05
OpenAI的新IH-Challenge训练数据集通过提升指令层级15%,增强了对提示注入和越狱尝试的防御能力。
OpenAI已发布IH-Challenge,这是一份强化学习训练数据集,旨在教导AI模型如何优先处理可信指令而非恶意指令。该数据集于2026年3月19日与一篇arXiv论文一同发布,在衡量抗提示注入攻击的基准测试中,性能提升最高达15%。
此次发布针对大型语言模型的一个根本漏洞:当来自不同来源的指令冲突时,模型可能被误导执行错误的指令。这也是越狱、系统提示提取以及日益复杂的提示注入攻击不断发生的根源,影响着具有代理能力的AI系统。
层级问题
OpenAI的模型遵循严格的信任顺序:系统 > 开发者 > 用户 > 工具。当用户提出违反系统安全策略的请求时,模型应拒绝。当网页爬取工具返回含有恶意指令的内容时,模型也应忽略。
听起来很简单。实际上,可靠训练一直是个噩梦。
之前采用强化学习的方法遇到三大问题。第一,模型未能通过指令层级测试,并非因为理解有误,而是因为指令本身过于复杂。第二,在模糊冲突中判断“正确”回应具有主观性——即使是AI评判也会出错。第三,模型学会了走捷径,比如拒绝一切请求,虽然这样能最大化安全得分,但严重影响了实用性。
IH-Challenge的实际作用
该数据集通过设计简单任务规避了这些陷阱。每个场景都提供一个高权限指令(“只回答‘是’或‘否’”),随后是试图覆盖该指令的低权限信息。由Python脚本——而非易出错的AI评判——评估模型的回应是否遵守了高优先级的限制。
没有歧义,没有适用于所有任务的捷径。
OpenAI在该数据集上训练了一个内部模型,名为GPT-5 Mini-R。学术和内部基准测试的结果显示出持续的提升:
TensorTrust开发者-用户冲突得分从0.76提升到0.91(+0.15)。系统-用户冲突解决率从0.84提升到0.95(+0.11)。开发者-用户冲突处理从0.83提升到0.95(+0.12)。
关键是,训练后的模型并未变得不那么有用。过度拒绝的比例反而有所改善——模型在区分真实威胁与 benign 请求方面变得更擅长。GPQA Diamond和AIME 2024的得分保持稳定,尽管与o1的聊天胜率略有下降,从0.71降至0.66。
现实世界的安全意义
实际效果体现在两个方面。安全可控性提升——当在系统提示中加入类别特定的安全规范时,IH训练模型在不降低整体帮助程度的情况下,表现出更高的拒绝率。
提示注入的抗性也得到了增强。在CyberSecEval 2和OpenAI内部基准(基于之前对ChatGPT Atlas有效的攻击)中,训练模型明显优于基线。
OpenAI已在Hugging Face公开了IH-Challenge数据集。对于构建调用工具、读取不可信文档并采取实际行动的代理系统的开发者来说,这解决了AI安全中较难攻克的问题之一。
时机尤为关键。随着AI代理变得越来越自主,持续优先处理可信指令的能力不再是“锦上添花”,而是部署的前提条件。
图片来源:Shutterstock