OpenAI 发布 IH-Challenge 数据集以增强 AI 对提示注入攻击的抗御能力

AsiaTokenFund · 2026-03-21T07:50:07+00:00

Iris Coleman 2026年3月21日 00:05OpenAI推出的IH-Challenge训练数据集通过提升指令层级最多15%，增强了对提示注入和越狱尝试的防御能力。OpenAI已发布IH-Challenge，这是一种基于强化学习的训练方法。

AsiaTokenFund

2026-03-21 07:50:07

艾瑞斯·科尔曼

2026年3月21日 00:05

OpenAI的新IH-Challenge训练数据集通过提升指令层级15%，增强了对提示注入和越狱尝试的防御能力。

OpenAI已发布IH-Challenge，这是一份强化学习训练数据集，旨在教导AI模型如何优先处理可信指令而非恶意指令。该数据集于2026年3月19日与一篇arXiv论文一同发布，在衡量抗提示注入攻击的基准测试中，性能提升最高达15%。

此次发布针对大型语言模型的一个根本漏洞：当来自不同来源的指令冲突时，模型可能被误导执行错误的指令。这也是越狱、系统提示提取以及日益复杂的提示注入攻击不断发生的根源，影响着具有代理能力的AI系统。

层级问题

OpenAI的模型遵循严格的信任顺序：系统 > 开发者 > 用户 > 工具。当用户提出违反系统安全策略的请求时，模型应拒绝。当网页爬取工具返回含有恶意指令的内容时，模型也应忽略。

听起来很简单。实际上，可靠训练一直是个噩梦。

之前采用强化学习的方法遇到三大问题。第一，模型未能通过指令层级测试，并非因为理解有误，而是因为指令本身过于复杂。第二，在模糊冲突中判断“正确”回应具有主观性——即使是AI评判也会出错。第三，模型学会了走捷径，比如拒绝一切请求，虽然这样能最大化安全得分，但严重影响了实用性。

IH-Challenge的实际作用

该数据集通过设计简单任务规避了这些陷阱。每个场景都提供一个高权限指令（“只回答‘是’或‘否’”），随后是试图覆盖该指令的低权限信息。由Python脚本——而非易出错的AI评判——评估模型的回应是否遵守了高优先级的限制。

没有歧义，没有适用于所有任务的捷径。

OpenAI在该数据集上训练了一个内部模型，名为GPT-5 Mini-R。学术和内部基准测试的结果显示出持续的提升：

TensorTrust开发者-用户冲突得分从0.76提升到0.91（+0.15）。系统-用户冲突解决率从0.84提升到0.95（+0.11）。开发者-用户冲突处理从0.83提升到0.95（+0.12）。

关键是，训练后的模型并未变得不那么有用。过度拒绝的比例反而有所改善——模型在区分真实威胁与 benign 请求方面变得更擅长。GPQA Diamond和AIME 2024的得分保持稳定，尽管与o1的聊天胜率略有下降，从0.71降至0.66。

现实世界的安全意义

实际效果体现在两个方面。安全可控性提升——当在系统提示中加入类别特定的安全规范时，IH训练模型在不降低整体帮助程度的情况下，表现出更高的拒绝率。

提示注入的抗性也得到了增强。在CyberSecEval 2和OpenAI内部基准（基于之前对ChatGPT Atlas有效的攻击）中，训练模型明显优于基线。

OpenAI已在Hugging Face公开了IH-Challenge数据集。对于构建调用工具、读取不可信文档并采取实际行动的代理系统的开发者来说，这解决了AI安全中较难攻克的问题之一。

时机尤为关键。随着AI代理变得越来越自主，持续优先处理可信指令的能力不再是“锦上添花”，而是部署的前提条件。

图片来源：Shutterstock

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

1人点赞了这条动态

赞赏
1
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate13周年全球庆典
1673.79万热度
#
TradFi首创多倍杠杆
56.99万热度
#
加密行情震荡
115.56万热度
#
创作者冲榜
3.86万热度
#
OpenAI拟推出桌面超级应用
67.33万热度

热门 Gate Fun
查看更多

1
Joy to get
Joey
市值:$2355.17持有人数:1
0.00%
2
WMAI
SongWaiMai
市值:$2416.91持有人数:2
0.21%
3
DQ
大秦
市值:$2402.06持有人数:2
0.07%
4
xqh
山顶资本
市值:$2365.51持有人数:1
0.00%
5
tutu
兔兔币
市值:$2365.51持有人数:1
0.00%

OpenAI 发布 IH-Challenge 数据集以增强 AI 对提示注入攻击的抗御能力

层级问题

IH-Challenge的实际作用

现实世界的安全意义

热门话题

Gate13周年全球庆典

TradFi首创多倍杠杆

加密行情震荡

创作者冲榜

OpenAI拟推出桌面超级应用

热门 Gate Fun

Joy to get

Joey

WMAI

SongWaiMai

DQ

大秦

xqh

山顶资本

tutu

兔兔币

置顶