登錄
註冊
午方 AI 獲悉,OpenAI 正式推出 LifeSciBench 評估基準,旨在量化人工智能系統在現實世界科學研究場景中的綜合效能。該基準由 173 位具備博士學位及生物技術或製藥行業經驗的研究人員共同構建,包含 750 項精心設計的任務,覆蓋 7 種科研工作流程及 7 個生物學科領域。
LifeSciBench 着重考察 AI 在證分析、科學推理及科學交流等複雜維度的表現,而非侷限於單一事實性問答。數據顯示,超過 79% 的任務涉及多步驟推理,平均每題需經歷約 4 個推理環節,並附帶 1,062 份真實研究數據文件,包括論文、圖表、序列數據及結構文件等。