OpenAI 推出 FrontierScience 以基準測試 AI 的科學推理能力

2025-12-20 15:32:45

Jessie A Ellis

2025年12月20日 04:04

OpenAI推出了FrontierScience，一個新的基準，用於評估AI在物理、化學和生物學等領域的專家級推理能力，旨在加速科學研究。

OpenAI已推出FrontierScience，一個突破性的基準，旨在評估人工智慧(AI)在執行專家級科學推理方面的能力，涵蓋物理、化學和生物學等多個領域。此舉旨在提升科學研究的速度，正如OpenAI所報導。

加速科學研究

FrontierScience的開發是在AI模型（如GPT-5）取得重大進展的背景下進行的，這些模型已展現出能將通常需數天或數週的研究流程縮短到幾小時的潛力。OpenAI在2025年11月發表的論文中記錄了GPT-5顯著加快研究進程的能力。

OpenAI致力於優化AI模型以應對複雜的科學任務，彰顯其利用AI造福人類的更廣泛承諾。通過提升模型在困難數學和科學任務中的表現，OpenAI希望為研究人員提供工具，最大化AI在科學探索中的潛力。

FrontierScience作為評估專家級科學能力的新標準，包含兩個主要部分：奧林匹克（Olympiad），用於評估類似國際競賽的科學推理能力；以及研究（Research），用於評估實際研究能力。該基準包含數百個由物理、化學和生物學專家設計並審核的問題，重點在於創新性、難度和科學意義。

在初步評估中，GPT-5.2在奧林匹克(77%)和研究(25%)兩個類別中都取得了最高分，超越了其他先進模型。這一進展凸顯了AI在應對專家級挑戰方面日益成熟，但在開放式、研究導向的任務中仍有提升空間。

FrontierScience包含超過700個文字題目，由奧林匹克獎牌得主和博士研究人員共同貢獻。奧林匹克部分設有100個由國際競賽冠軍設計的問題，而研究部分則包括60個模擬實際研究場景的獨特任務，旨在模擬高階科學研究中所需的多步推理。

為確保嚴格評估，每個任務均由專家撰寫和審核，並且該基準的設計融入了OpenAI內部模型的意見，以維持高難度標準。

FrontierScience採用短答題評分和評分標準（rubric）相結合的方法來評估AI回應。這種方式能詳細分析模型的表現，不僅關注最終答案，也重視推理過程。AI模型由模型評分器進行評分，確保評估的可擴展性和一致性。

儘管取得了成就，FrontierScience仍承認其在全面捕捉現實科學研究複雜性方面的局限性。OpenAI計劃持續改進該基準，擴展更多領域並融入實際應用，以更好地評估AI在科學發現中的潛力。

最終，衡量AI在科學研究中的成功將取決於其促進新科學發現的能力，使FrontierScience成為追蹤AI在該領域進展的重要工具。

圖片來源：Shutterstock

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

留言

0/400

暫無留言