OpenAI 推出 FrontierScience 以基准测试 AI 的科学推理

Jessie A Ellis

2025年12月20日 04:04

OpenAI推出了FrontierScience,这是一个新的基准,用于评估AI在物理、化学和生物学等领域的专家级推理能力,旨在加速科学研究。

OpenAI引入了FrontierScience,这是一项开创性的基准,旨在评估人工智能(AI)在执行物理、化学和生物学等多个领域的专家级科学推理能力。该项目旨在提升科学研究的速度,据OpenAI报道。

加速科学研究

FrontierScience的开发是在AI模型取得重大进展的背景下进行的,例如GPT-5,这些模型已显示出能够将通常需要数天或数周的研究过程缩短到数小时的潜力。OpenAI在2025年11月发表的论文中记录了GPT-5显著加快研究进展的能力。

OpenAI不断优化AI模型以应对复杂的科学任务,彰显其利用AI造福人类的更广泛承诺。通过提升模型在困难数学和科学任务中的表现,OpenAI旨在为研究人员提供工具,最大限度地发挥AI在科学探索中的潜力。

介绍FrontierScience

FrontierScience作为评估专家级科学能力的新标准,包含两个主要部分:奥林匹克竞赛(Olympiad),用于评估类似国际竞赛的科学推理能力;以及研究(Research),用于评估实际科研能力。该基准包含数百个由物理、化学和生物学专家设计和审查的问题,重点关注原创性、难度和科学意义。

在初步评估中,GPT-5.2在奥林匹克(77%)和研究(25%)类别中都取得了最高分,优于其他先进模型。这一进展凸显了AI在应对专家级挑战方面的日益熟练,尽管在开放式、研究导向的任务中仍有提升空间。

构建FrontierScience

FrontierScience包含700多道基于文本的问题,由奥林匹克奖牌得主和博士研究人员贡献。奥林匹克部分包括由国际竞赛获胜者设计的100个问题,而研究部分则包括60个模拟真实科研场景的独特任务。这些任务旨在模仿高端科学研究中复杂的、多步骤的推理过程。

为了确保严格的评估,每个任务都由专家撰写和审查,基准的设计也融入了OpenAI内部模型的输入,以保持高难度标准。

评估AI表现

FrontierScience采用短答题评分和评分标准相结合的方法,评估AI的回答。这种方式可以详细分析模型的表现,不仅关注最终答案,还关注推理过程。AI模型由基于模型的评分系统进行评分,确保评估的可扩展性和一致性。

未来方向

尽管取得了成就,FrontierScience也承认其在全面捕捉真实科研复杂性方面的局限性。OpenAI计划继续完善该基准,拓展更多领域,并结合实际应用,更好地评估AI在科学发现中的潜力。

最终,衡量AI在科学研究中的成功,将取决于其推动新科学发现的能力,因此FrontierScience将成为追踪AI在该领域进展的重要工具。

图片来源:Shutterstock

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)