这项由Scale AI主导、联合加州大学洛杉矶分校、马里兰大学、普林斯顿大学以及Human Frontier Collective共同完成的研究,以预印本形式发布于2026年4月12日,论文编号为arXiv:2604.10718v1,有兴趣深入探究的读者可通过该编号检索完整论文。
科学研究从来都不便宜。在湿实验室里,一次蛋白质结晶实验可能耗费研究团队数月时间和大量资金,结果却可能什么都得不到。在材料科学领域,找到合适的合成参数往往意味着无数次昂贵的试错。即便是基础物理学,决定把稀缺的粒子加速器机时用在哪个参数范围,本身就是一个代价高昂的赌注。正因为如此,科学家们在动手做实验之前,总是会先在脑子里推演:如果这样做,会发生什么?
这种"先预测、再实验"的思维方式贯穿了人类科学史的始终。而如今,人工智能的快速崛起让很多人开始期待:能不能让AI来替代科学家做这件事?AI掌握了海量的科学文献,能够推理复杂系统,在各类科学问答测试中也表现出色——理论上,它似乎是预测实验结果的理想工具。
然而,这项来自Scale AI的研究给出了一个让人清醒的答案:目前的AI在这件事上,做得相当糟糕。
研究团队构建了一个名为SciPredict的评测基准,专门用于衡量大型语言模型(也就是GPT、Claude这类AI)预测真实科学实验结果的能力。这个基准涵盖了物理、生物、化学三大领域中33个专业子领域,共包含405道来自2025年3月31日之后发表的最新研究论文的实验预测题目。选择这个时间节点非常关键——它确保了这些题目超出了当前所有主流AI模型的训练数据范围,彻底堵死了"背答案"的可能性。为了建立这个基准,研究团队耗费了7380个专家工时,花费了33.6万美元,可见其严苛程度。
---
一、当科学预测变成一场考试:SciPredict是什么,为什么重要
要理解这项研究的价值,不妨把整个科学研究过程想象成一条流水线。第一步是头脑风暴:科学家通过文献调研和假设设计,确定想探索的方向。第二步是关键决策:在真正动手做实验之前,先评估"这个方向值不值得试"。第三步才是真正昂贵的部分:采购设备、准备材料、执行实验、收集数据。最后是分析结果、发表论文。
在这条流水线中,第二步——也就是"预测实验结果"——是最被忽视但潜在价值最大的环节。如果AI能在这一步发挥作用,替科学家筛掉那些注定失败的方向,优先推荐最有希望的实验设计,整个科研效率将会大幅提升。
SciPredict的研究团队把AI的这一能力分解为两个核心问题:第一,AI能不能以足够高的准确率预测实验结果?第二,即便AI能做到一定程度的预测,它能不能告诉我们"哪些预测是可信的、哪些不可信"?这两个问题,前者关乎能力,后者关乎可靠性。正如研究者指出的,一个准确率60%但无法区分可靠预测和不可靠预测的AI,在实际科研中几乎没有用处——因为你不知道该相信它的哪句话。
为了全面考察AI的表现,SciPredict设计了三种题目形式。多项选择题(MCQ)给出几个选项,让AI选出最可能的实验结果;自由作答题(FF)要求AI用自己的语言描述预期结果;数值预测题(NUM)要求AI给出具体的数字。这三种形式分别测试了AI识别正确答案、生成解释以及定量预测的不同能力维度。
物理学部分涵盖凝聚态物理、量子与原子物理、高能粒子物理、光学与激光物理等9个子领域;生物学覆盖了微生物学、癌症生物学、神经科学、生态学、免疫学等14个子领域;化学则包括有机化学、催化、物理化学、纳米化学等10个子领域。整体分布是生物占50%、物理25%、化学25%,题目格式分布为多选40%、自由作答32%、数值预测28%。
---
二、成绩揭晓:AI的表现让人大跌眼镜
现在来看看这场考试的成绩单。
研究团队在关闭网络搜索功能的条件下(这一点至关重要,否则AI可能直接检索到原论文答案,把预测题变成查找题),对15款当前最先进的AI模型进行了零样本测试。这15款模型包括OpenAI的o3、o3-mini、o4-mini、GPT-5.2;Anthropic的Claude Sonnet 4.5、Opus 4.1、Opus 4.5;Google的Gemini 2.5 Pro、3 Flash、3 Pro;Meta的Llama 3.1 8B、Llama 3.3 70B;阿里巴巴的Qwen 3 32B、Qwen 3 235B;以及DeepSeek v3。
整体准确率在14%到26%之间。
表现最好的是Gemini 3 Pro,平均准确率约25.3%。排名靠前的还有Claude Opus 4.5(约23%)、Claude Sonnet 4.5(约22.6%)和Gemini 3 Flash(约22.2%)。表现垫底的是Llama 3.1 8B,准确率仅约14.7%。
同期,研究团队还招募了一批真正的领域专家作为人类基准线。这些专家中74.4%持有博士学位,17.9%持有硕士学位,每位专家只回答与其专业方向严格对应的题目。人类专家的平均准确率大约是20%。
换句话说,最顶尖的AI模型(Gemini 3 Pro)勉强比人类专家高出几个百分点,而大多数模型的表现与人类专家大体相当,甚至更差。
这个数字本身已经令人深思。一个随机在4个选项中猜答案的策略,期望准确率是25%——而许多AI模型的表现与瞎猜相差无几。对于号称掌握了人类绝大多数科学知识的AI系统来说,这个成绩相当难看。
但研究者们强调,准确率只是这张成绩单的一半。另一半,才是真正让人担忧的地方。
---
三、比答错更可怕的问题:AI不知道自己哪里错了
回到流水线的比喻。假设你雇了一个助理帮你筛选实验方案。这个助理答对的概率只有两成,但他非常清楚自己什么时候把握大、什么时候没把握——每当他说"我有把握",他答对的概率是八成;每当他说"我没把握",他答对的概率只有一两成。这样的助理依然很有价值,因为你知道什么时候可以信任他的判断。
但如果这个助理无论对错,都用同样自信的语气说话,完全无法区分自己什么时候对、什么时候错——那他的价值就大打折扣了,甚至比没有这个助理还要危险,因为他的错误判断会以可信的面目出现,引导你走上弯路。
SciPredict的研究者们专门设计了三个维度来衡量AI的这种"自我认知"能力,分别称为置信度(Confidence)、难度(Difficulty)和可行性(Feasibility)。置信度是让AI评估自己对当前预测的把握程度,1到5分,分数越高表示越有把握。难度是让AI判断这道题有多难预测,1到5分,分数越高表示越难。可行性是让AI判断这个实验结果能不能在不亲自做实验的情况下通过推理预测出来,1到5分,分数越高表示越可以通过推理得出。
一个校准良好的AI应该表现出这样的规律:当它给自己打高置信度时,实际答题准确率也应该更高;当它认为题目难度很大时,准确率应该更低;当它认为可行性高时,准确率也应该更高。
然而,实验结果显示,AI完全没有这种自我认知。无论AI给自己打出多高的置信度(哪怕是最高分5分),它的实际准确率依然稳定在约20%左右,和它给自己打低置信度时没有任何差别。难度评分和可行性评分同样如此,与实际准确率之间几乎看不出任何规律性的关联。
更具体地说,当AI把某道题的可行性打为5分(最容易通过推理得出答案)时,它的准确率并不比把可行性打为1分(必须做实验才能知道答案)时高出多少,两种情况下的准确率都在约20%上下。
人类专家的表现与此形成了鲜明对比。当专家们认为某道题几乎不可能在不做实验的情况下预测出来(可行性1分)时,他们的准确率仅约5%,说明他们对自己的局限有清醒认知。但当专家们认为某道题可以通过已有知识推理得出(可行性5分)时,他们的准确率骤然攀升至约80%。这种从5%到80%的跨越,正是真正的自我认知能力的体现。
AI缺乏这种能力,意味着它的预测结果无法被可靠地"过滤"——你无法根据AI的自我评估来判断哪些预测值得信任。
---
四、背景知识的秘密:给AI"补课"有没有用
既然AI的基础表现不尽如人意,研究者们进一步探究了一个关键问题:如果给AI提供更多背景知识,情况会不会改善?
这个问题在实际应用中非常重要。在真实的科研场景里,研究人员可以为AI提供相关领域的文献摘要、已知实验结论等背景信息,帮助AI更好地推理。但这种"补课"到底有多大用?
研究团队设计了五种不同的信息提供条件进行对比。第一种是"无背景知识"(NBK),只给AI实验设置描述和测量方法,没有任何额外的领域背景。第二种是"专家背景知识"(BK),在实验描述的基础上额外提供由领域专家从相关文献中精心筛选的关键背景知识条目。第三种是"AI自生成背景"(SBK),要求AI在回答问题之前先自己生成相关背景知识,然后再据此作答。第四种是"组合背景"(SABK),把专家背景知识和AI自生成背景叠加在一起提供给AI。第五种是"过滤背景"(FBK),从专家背景知识中去掉AI已经知道的那些条目,只提供AI实际不熟悉的新信息。
结果显示,提供专家精选的背景知识确实有帮助,平均提升约3%的准确率,个别模型最多提升约5.8%。然而,这点提升虽然稳定,但依然无法将AI的整体表现提升到实用阈值。
更有趣的发现是:让AI自己生成背景知识,往往会让表现变得更差,而不是更好。研究者们发现,当AI自行生成背景知识时,它经常引入不相关的信息、错误的假设,或者干脆捏造一些听起来合理但实际上并不适用于当前情境的"事实"。这些噪音信息把AI原本还算正确的直觉干扰掉了。
更耐人寻味的是:即便把专家背景知识和AI自生成的背景知识叠加在一起(SABK条件),大多数模型的表现也没有比单独使用专家背景知识(BK条件)更好——有时甚至更差。这说明AI自己生成的信息不仅没有提供额外价值,反而污染了已有的优质信息。
还有一个细节值得关注:研究者们把背景知识条目转化成问题,测试AI是否"已经知道"这些知识。结果发现,所有模型对背景知识条目的掌握率均超过70%——也就是说,AI其实已经"知道"大部分背景知识了,只是在预测具体实验结果时没能有效调用这些知识。但有趣的是,即便把AI已经知道的背景知识重新以文字形式呈现在上下文中,也仍然能轻微提升其准确率。这说明"知道"某件事和"在预测中有效使用"某件事,是两种不同的能力。
---
五、AI究竟在哪里犯错:一份详细的错误诊断报告
研究团队不满足于仅仅知道AI答错了,他们还想搞清楚AI是怎么答错的。为此,他们让另一个AI充当"评审法官",对所有错误答案进行分类分析,按照五大错误类别和16个具体子类型逐一标注。
这五大错误类别构成了一幅层层递进的"错误图谱"。最浅层的是理解与范围错误,包括误解题意、违反题目约束、回答过于笼统、或者加入了无关信息。平均而言,约10%的错误答案存在此类问题——这意味着AI基本上能理解题目在问什么,这并不是主要瓶颈。
更深一层是事实提取错误,包括忽略实验描述中明确给出的关键信息、与实验材料中的事实相矛盾、凭空捏造数据或结论,以及在自己的推理过程中遗漏关键证据。这一类是AI最常犯的错误,约80.1%的错误答案至少存在一个此类问题。具体来看,"事实矛盾"(Factual Contradiction)的发生率约52.3%,"信息捏造"(Information Fabrication)的发生率约54%。换句话说,AI非常频繁地在推理中引入了与实验描述相矛盾的内容,或者直接发明了实验材料中不存在的信息。
第三层是逻辑推理错误,约87.4%的错误答案存在此类问题。这包括循环论证(用结论来证明结论)、推理依赖未经证明的假设、正确的事实之间缺乏逻辑连接、以及把次要原因误认为主要原因。其中"无根据假设"(Unsupported Assumption)的发生率高达86%,是最主要的逻辑错误类型。
第四层是科学严谨性缺陷,约47.9%的错误答案存在此类问题。其中最典型的是"虚假确定性"(False Certainty)——AI在错误的情况下依然用斩钉截铁的口吻给出答案,发生率约43.6%。这直接解释了为什么AI的置信度评分与实际准确率之间毫无关联:AI会对着一个错误的答案说"我非常确定"。此外,约19.4%的错误答案中,AI没有承认自己知识的局限性。
第五层是格式错误,发生率极低,不足0.6%,说明AI在理解题目格式方面基本没有问题。
一个值得注意的规律是:规模较小的模型(如Llama 3.1 8B)在"推理断裂"(Disconnected Reasoning)方面的发生率高达28%,而顶级模型这一比例仅约9.6%。这说明模型规模确实与推理连贯性相关,更大的模型在把证据串联成结论方面做得更好,只是它们仍然会捏造信息和做出无根据的假设。
---
六、题目格式的巨大影响:多选题和自由作答差距有多大
如果你曾经参加过标准化考试,你大概知道多项选择题和填空题之间的感受差别有多大。前者至少给你一些提示,让你有机会通过排除法找到正确答案;后者则要求你真的"知道"答案。
SciPredict的研究发现,这种差距在AI身上同样显著,而且幅度相当惊人。
在多选题(MCQ)格式下,顶级模型的准确率通常在30%到40%之间,部分模型超过40%。但当研究者把同样的内容改写成自由作答格式时,准确率会明显下滑。而数值预测题的准确率最低,通常在10%到16%之间徘徊。
为了进一步验证格式本身的影响,研究者做了一个精妙的对照实验:把多选题逐字改写成自由作答题(MCQ→FF),保持题目内容完全一致,只是去掉了选项。结果发现,几乎所有模型在这种转换后准确率都出现了明显下降,即便题目内容没有任何改变。
这揭示了一个重要问题:AI的多选题表现,在一定程度上依赖于"看到选项后比对最相近的那个"这种模式识别策略,而不是真正理解实验会产生什么结果。当必须自己给出答案时,这种策略就失效了。
这意味着,通常用来评估AI科学能力的多选题基准测试,可能系统性地高估了AI在真实科研场景中的实际能力——因为真实科研中的预测通常是开放式的,而不是从几个选项中选一个。
---
七、化学最难,不同领域的差异说明了什么
按学科领域来看,三个大类的难度存在明显差异。化学是最难的领域,平均准确率在13%到26%之间,最难的模型勉强超过13%。这种差距在人类专家身上体现得尤为明显:专家在化学题上的准确率仅约8.82%,而在生物学上约23.15%,在物理学上约26%。
化学领域的低表现可能反映了一个深层问题:化学实验的结果往往高度依赖非常具体的实验条件,细微的参数变化可能导致截然不同的结果,这种"蝴蝶效应"使得在没有亲自操作的情况下预测结果尤为困难。无论是AI还是人类专家,面对高度情境依赖的化学实验结果,都很难仅凭文字描述做出准确预测。
研究者们还发现了一个关于模型能力的有趣规律:SciPredict的得分与一个名为HLE(Humanity's Last Exam)的通用硬推理基准存在正相关关系,Pearson相关系数约为0.46。也就是说,通用推理能力越强的模型,在实验预测上通常也表现得稍好一些。但这种相关性并不强——不同模型在HLE上得分相近,但在SciPredict上的得分可能相差好几个百分点。
具体来看,DeepSeek v3在HLE上得分非常低,但在SciPredict上的表现超出了其HLE分数所预期的水平。而Gemini 2.5 Pro和GPT-5.2在HLE上得分较高,却在SciPredict上低于预期。这种"偏差"说明,除了通用推理能力,实验预测还依赖于对具体科学领域的先验知识和实验直觉——即能识别哪些实验细节与结果因果相关、能把观测值映射到合理机制上,这些是通用推理能力之外的东西。
---
八、这一切意味着什么:AI科学助手的门槛在哪里
归根结底,这篇论文用严格的数据告诉我们一件事:AI目前的实验预测能力,还远远达不到能够可靠指导科学研究的程度。
准确率14%到26%的绝对数值已经够低了。但更根本的问题在于,AI无法告诉你它的哪些预测是可信的。这种缺乏自我认知的状态,意味着即便AI偶尔预测正确,研究者也没有可靠的方法从一堆预测中把正确的那个挑出来。
研究者们用了一个非常精准的说法来描述这个问题:AI不仅缺乏预测的准确性,更缺乏"预测可靠性的自我意识"(metacognitive awareness)。人类专家拥有这种意识——他们知道自己什么时候是在踩实地、什么时候是在走钢丝。AI目前还没有这个能力。
这并不意味着AI在科学研究中没有价值。事实上,AI在文献综述、假设生成、代码编写和数据分析方面已经展现出了实实在在的辅助价值,这些领域的进展都有大量实证研究支撑。SciPredict聚焦的是一项更难的能力——预测未知的实验结果——而这件事本身对人类专家来说也很难,20%的专家准确率就是最好的证明。
研究团队在结论中指出,要实现AI在实验科学中的真正价值,需要两方面的同步进步:一方面是提升预测准确率本身,这需要更好的科学事实基础和更强的因果推理能力;另一方面是发展可靠的不确定性量化能力,让AI能够对自己的预测诚实地标注"我不知道"或"这个我没把握"。后一点可能比前一点更难,也更重要。
研究者们还展望了未来的方向:把AI与真实的实验流程结合起来,让它在看到实验结果后能更新自己的推理——把预测从一次性的猜测变成一个迭代的对话过程。此外,跨领域知识迁移也是值得探索的方向,即让AI学会识别不同科学领域之间的类比关系,就像顶尖的跨学科科学家那样,把一个领域的洞察带到另一个领域。
SciPredict的数据和代码已经完整开放在GitHub上,供研究社区自由使用和改进。这个基准本身将成为衡量未来AI在这一能力维度上进步的标尺。
下次当你看到某个关于"AI将革命性地加速科学发现"的新闻标题时,不妨想起这组数字:在最新发表的科学实验面前,即便是最顶尖的AI,它的预测能力也只比专业领域的博士专家高出几个百分点。这条路还很长。
---
Q&A
Q1:SciPredict基准测试和普通AI科学问答测试有什么本质区别?
A:SciPredict专门测试AI预测真实实验结果的能力,而不是测试AI的科学知识储量。所有题目都来自2025年3月31日之后发表的最新论文,确保超出所有AI的训练数据范围,彻底杜绝"背答案"的可能。更重要的是,SciPredict同时评估AI是否知道自己哪些预测是可信的——这是普通知识问答测试完全忽略的维度。
Q2:为什么给AI提供背景知识只能提升约3%的准确率,而不是大幅提升?
A:研究发现,AI对大多数背景知识条目的掌握率超过70%,也就是说它"知道"这些知识,但无法有效用于预测具体实验结果。这说明"知道知识"和"用知识预测未知实验结果"是两种截然不同的能力。预测实验结果需要理解细微的实验条件依赖关系,以及做出有根据的因果推断,而不只是调用已储存的知识。
Q3:SciPredict研究中的人类专家准确率只有20%,是不是说明这些题目太难了,AI表现差情有可原?
A:人类专家20%的整体准确率的确反映了这些题目的高难度,但关键不在于绝对准确率,而在于校准能力。当专家认为某题可以通过推理预测时,他们的准确率高达约80%;而认为必须做实验才能知道时,准确率仅约5%。这种从5%到80%的跨越说明专家知道自己的边界。AI则无论对错都维持约20%的准确率,缺乏这种自我认知,这才是核心问题。