这项由南方科技大学、香港科技大学(广州)和都柏林大学学院共同完成的研究,于2026年6月以预印本形式发布,论文编号为arXiv:2606.11897,感兴趣的读者可以通过该编号查询完整论文。
**研究概要:当AI助手读懂科学家"犹豫"的那一刻**
科学家的实验记录本,是一种非常特殊的文字。你翻开它,会看到"信号似乎有些问题,不太确定"、"这段数据可能不可靠"、"下次试试换缓冲液"——这些句子里藏着科学家在实验台边的真实心理状态:有时候他们胸有成竹,有时候他们只是在猜测,有时候他们只是随手记下一个值得尝试的想法。
现在,假设你是一个AI助手,你要根据这本记录本来帮助科学家处理数据。你会怎么做?如果你把"不确定这段数据是否可靠"当成一个明确指令去执行,你就可能把一段还有研究价值的数据直接扔掉——而那可能正是实验中最关键的部分。反过来,如果你把"这部分数据无效,直接截断"当成一个可以随便商量的建议,那你就可能保留了应该删除的垃圾数据,污染后续所有的分析结果。
这两种失误在研究团队的工作中都有实际案例。他们将第一种失误称为"不确定性漂白",第二种失误称为"指令丢失"。这两种失误的根源相同:AI在读实验记录本时,分不清楚科学家说的到底是"确认事实"、"主观判断"还是"随口建议"。
为了解决这个问题,研究团队设计了一套叫做"Notes2Skills"(N2S,记录转技能)的两阶段框架。这套框架能把科学家的实验记录本转化为AI可以调用的、带有"确定性标签"的技能库,让AI在执行操作时始终清楚地知道:这条指令来自科学家的确凿观察、还是他的犹豫猜测、抑或只是一个随手写下的未来设想。
---
一、为什么实验记录本是一块特别难啃的骨头
要理解这项研究的价值,我们得先搞清楚实验记录本和其他科学文本的本质区别。
科学界已有大量AI工具能够处理"正式的科学文字"。比如,发表出来的论文、标准实验操作流程(也叫"湿实验室协议")、化学合成数据库等等。这些文字有一个共同特点:作者在写下它们的时候,已经解决了自己的疑虑。"离心机转10分钟"就是明确指令,"温度设定为4摄氏度"就是确定事实,没有任何模糊空间。AI只需要把这些指令识别出来、转换成可执行动作,就完成任务了。
实验记录本则完全不同。它是科学家在实验过程中实时写下的内容,充满了不确定性、自我质疑和尚未验证的猜想。同一段记录里,可能同时出现"读数在五分钟后急剧下降(这是一个事实)"、"不确定第二次读数是否可靠(这是一个模糊判断)"和"下次试试换新鲜缓冲液(这只是一个建议)"。这三种表述混在一起,表面上看起来都很相似,但它们应该引发的AI行为完全不同。
更麻烦的是,实验记录本往往还带有中英文混写、口语化表达、省略主语、使用代词等特点,给AI理解带来了额外挑战。研究团队收集的一类记录本(他们称之为"FreeNotes")就是由中国科研机构的研究员用中英文夹杂的方式书写的,充满了"这个read好像有点问题"这样的混合表达。
正因如此,以往的AI系统在处理实验记录本时几乎都走了捷径——要么只处理格式规整的协议文件,要么把所有记录不加区分地当成指令执行。研究团队认为,这个捷径是危险的,它正是导致"不确定性漂白"和"指令丢失"的根本原因。
---
二、给每一句话贴上"确定性标签":第一阶段的核心任务
研究团队设计的解决方案分两个阶段。第一阶段叫做"情境化指令提取"(EDE,Epistemic Directive Extraction),核心任务是把实验记录本里的每一段文字都拆解成三个维度的信息。
第一个维度是判断:这段话是否包含一个"指令"?所谓指令,就是能影响后续数据处理行为的内容——比如标记数据质量有问题、记录实验条件变化、建议某种分析方法、记录操作程序的改变,或者记录某个参数数值的变化。如果一段话只是单纯描述实验现象,不包含任何会改变后续行为的信息,那它就不是指令。
第二个维度是分类:这个指令属于哪种类型?研究团队定义了五种类型。"数据标记"类指令表示某段数据需要特殊处理,比如"这段信号无效";"条件变更"类指令表示实验条件发生了改变,比如"换用PBS溶液清洗了纳米孔";"分析建议"类指令表示建议采用某种分析方式;"协议变更"类指令表示对实验操作步骤进行了调整;"参数变化"类指令表示某个关键数值发生了变化。
第三个维度也是最关键的维度:这个指令的"确定性"是什么级别?研究团队定义了三个级别。"事实"(FACT)表示作者以确定的口吻陈述,没有任何犹豫。"判断"(JUDGMENT)表示作者带有不确定性,比如用了"似乎"、"可能"、"不太确定"这样的词。"建议"(SUGGESTION)表示作者只是提出一个可选的未来方向,并不要求执行。
这三个确定性级别直接决定了AI后续被允许做什么。被标记为"事实"的指令,可以授权AI执行强力操作,比如直接截断数据;被标记为"判断"的指令,只能让AI把数据标记为"待人工审核";被标记为"建议"的指令,AI只需要知晓,不采取任何主动行动。
研究团队用三种大型语言模型(GPT-4o、Claude Sonnet 4.5和Qwen-Max)测试了这一阶段的效果,分别在"零样本"(不给任何例子,直接提问)和"少样本"(提供少量标注好的例子)两种设置下进行测试。结果显示,少样本设置对所有三个模型都有稳定的提升效果,其中Claude Sonnet 4.5在少样本设置下的综合表现最好,对"是否包含指令"这一判断的F1分数(一种衡量准确率和召回率综合表现的指标)达到了0.737,而最强零样本基线只有0.682。对指令类型分类的F1分数也从0.320提升到了0.500。值得注意的是,GPT-4o在"确定性级别"判断上的表现最好,其二次加权Kappa(一种衡量等级一致性的统计指标)高达0.946,说明它在区分"事实"、"判断"和"建议"这三个层级上非常准确。
不同类型的记录本难度各不相同。正式的湿实验室协议(WLP)最好处理,因为语言规整、格式统一;研究者自己写的非正式记录本(FreeNotes)最难处理,少样本设置对它的提升也最显著;介于两者之间的开放记录本(ONS)则暴露了一个有趣现象:Qwen-Max在零样本设置下几乎完全失效(F1只有0.154),但一旦给它看几个标注好的例子,它就能立刻恢复到0.727,说明这不是模型能力的问题,而是模型没有理解任务的风格要求。
---
三、打包成可调用的"技能胶囊":第二阶段的工程设计
提取出带有确定性标签的指令之后,第二阶段的任务是把这些指令编译成一个AI可以直接调用的"MetaSkill"(元技能)文件。这个文件的格式是Markdown,一种结构化的文本格式,AI助手可以直接读取并根据其中的内容做决策。
MetaSkill文件的核心是每个指令对应的"胶囊"(capsule)。每个胶囊都包含以下要素:指令的唯一身份标识、原始记录片段的原文引用、指令类型标签、确定性级别标签、原文中表达不确定性的具体词语(比如"uncertain"、"looks like"等)、指令适用的数据范围(是某一段数据还是从某时刻开始的全部数据),以及一个密码学哈希值——这个哈希值就像文件的"DNA",保证胶囊中的内容和原始记录本完全一致,任何人都可以独立验证这个链接。
研究团队特别强调:第二阶段的编译过程是完全确定性的,中间没有任何大语言模型参与。这是一个有意为之的设计选择。如果让AI来"理解"和"重写"第一阶段的输出,就会引入新的不确定性——AI可能在转化过程中扭曲原作者的意图,把一个模糊的判断重新解读成一个确定的指令。而一个完全确定性的编译器不会做任何解读,只会忠实地把第一阶段的结构化输出翻译成MetaSkill格式,保证每一个胶囊都是原始记录的精确镜像。
研究团队在三个不同风格的语料库上验证了这一阶段的可靠性:非正式的中英文记录本(48个指令)、半正式的开放记录本(31个指令)和正式的湿实验室协议(70个指令),共计149个指令。结果是100%完美:所有149个指令都被正确编译为胶囊,确定性标签完全正确,哈希值链接完好无损,JSON格式(一种结构化数据格式)完全有效。这个结果并不令人意外,因为确定性系统本来就应该这样——它要么全部正确,要么有bug。研究团队还特别核查了FreeNotes记录本中的"行动策略层",同样全部通过。
---
四、真正的考验:在真实实验数据上拦截那两种失误
构建好MetaSkill文件只是第一步。研究团队随后进行了一个更接近真实应用场景的测试:把这套系统接入一个实际的纳米孔传感实验(一种生物物理学实验,用于检测分子穿过纳米级小孔时产生的微弱电流信号),让AI根据MetaSkill文件来决定如何处理每个实验数据文件。
这个下游测试涉及三个由真实科研数据构成的会话(session),共48个文件,由两位资深生物物理学家(分属两所机构)提前标注好了每个文件的"正确处理方式",作为评测标准。三个会话分别代表三种典型场景。第一个叫做"饱和度-A",17个文件,大量不确定性内容(14个文件的正确答案是"标记待审核"),代表充满模糊判断的实验记录。第二个叫做"饱和度-B",22个文件,存在明确的饱和电流事件(20个文件的正确答案是"标记待审核"),代表信号特征清晰但处理决策仍需谨慎的场景。第三个叫做"信号跌落",9个文件,全部由明确的事实性指令主导,正确答案是"在特定时间点截断数据"。
研究团队测试了七种不同的配置方案,核心对比如下。
直接用原始记录本文字加上信号数据喂给AI(不经过任何编译,即"外部LLM基线"):这种方案在两个饱和度会话上彻底失败,"标记待审核"这一类别的召回率都是0%,AI把所有应该保留审核的文件都当成了"保留完整数据"或者"直接截断"。但在"信号跌落"会话上表现还不错(κ=0.80),因为那个场景里的指令都足够明确,AI不需要理解不确定性就能做出正确判断。
只给AI一份包含行动指令但没有确定性标签的技能文件("仅行动技能"方案):在饱和度会话上同样失败严重,"标记待审核"召回率分别只有21.4%和0%。但在"信号跌落"会话上表现最好(κ=0.80),与外部LLM基线持平。这个结果说明:当信号足够明确、指令足够直接时,不需要确定性标签也能做好。但一旦遇到模糊场景,没有确定性标签的AI就会不由自主地把犹豫解读成行动。
给"仅行动技能"加上执行器(executor,一个确定性的规则检查模块):在饱和度会话上准确率有所提升(达到88.9%和90.9%),但"标记待审核"召回率为0——因为执行器没有确定性标签可以读取,只能对所有强力操作一刀切地降级,变成了一个"什么都变成待审核"的机器,反而在"信号跌落"会话上把原本88.9%的准确率直接砸到44.4%。
只给AI提供原文引用片段("原始记录"方案):在饱和度会话上同样表现平庸(饱和度-A的"标记待审核"召回率50%,饱和度-B为0%),在"信号跌落"会话上有一定表现(κ=0.63)。
给AI完整的MetaSkill文件但不启用执行器:在"信号跌落"会话上准确率反而下降了,说明光有MetaSkill还不够,需要执行器来强制执行其中的确定性约束。
给AI完整的MetaSkill文件并启用执行器("验证"模式):在两个饱和度会话上表现跃升,饱和度-A的综合F1分数达到85.6%,κ达到0.71,"标记待审核"召回率85.7%;饱和度-B则实现了完美的100%准确率。但在"信号跌落"会话上,由于执行器的"授权"规则找不到与信号证据匹配的支持,不敢执行截断操作,准确率只有44.4%。
给AI完整的MetaSkill文件并启用执行器("验证+提升"模式):这是研究团队的完整方案,在"验证"模式基础上增加了"替换"(Substitute)能力:当AI提出了保守操作,但MetaSkill中存在事实级别的指令、且信号数据也支持这个指令时,执行器可以主动升级操作。在饱和度会话上与"验证"模式结果相同;在"信号跌落"会话上,"替换"机制激活了14次(共45个决策),成功把准确率从44.4%拉回到77.8%,κ从0.15提升到0.63。
这个结果清楚地说明:完整方案是唯一一个能同时避免两种失误的配置。它不是某个指标最高的方案,但它是唯一在所有场景下都不犯原则性错误的方案。
---
五、执行器:这套系统的"良心"
执行器是整套系统中非常关键的一个组件,值得单独解释一下它的工作原理。
可以把AI助手比作一个刚入职的实验室助理,他需要根据上一任研究员留下的记录本来处理数据。执行器就像是一位经验丰富的高级研究员,站在这位新助理的背后,在他做出每个决定之前进行最后的检查。
当AI(新助理)想要执行一个强力操作——比如截断某个文件在32秒之后的数据——执行器会先查看MetaSkill胶囊里的记录:这个截断建议来自作者的确凿事实描述,还是他的猜测?信号数据本身是否也显示出32秒附近确实有异常?只有当两个条件同时满足时,执行器才会放行这个截断操作。如果其中任何一个条件不满足,执行器就会把操作降级为"标记待审核",让人类来做最终决定。
反过来,当AI提出了一个过于保守的操作(比如面对一个有明确截断指令的文件,AI却建议"标记待审核"),执行器会查看MetaSkill胶囊:如果存在一个事实级别的截断指令,而且信号数据也支持这个截断参数,执行器就会主动把AI的保守建议"升级"为截断操作。这就是"替换"机制,也是"验证+提升"模式在"信号跌落"会话上恢复表现的原因。
执行器的所有规则都是预先写好的确定性逻辑,没有任何随机性或模糊性。它读取三个输入:AI的提案、对应的MetaSkill胶囊(包含确定性标签、授权状态和候选操作),以及文件的信号分析摘要(包含电流跌落时间点、饱和事件时刻和校准容差)。然后它输出四种结果之一:放行(Authorize)、否决(Veto)、替换(Substitute)或弃权(Abstain)。给定相同的输入,执行器永远输出相同的结果,没有任何随机成分。
研究团队还特意验证了一件事:执行器的效果完全依赖于MetaSkill的确定性标签。当把"仅行动技能"(没有确定性标签的版本)接上同样的执行器时,执行器因为找不到"授权"字段,只能把几乎所有强力操作都否决掉,变成了一个全部降级为"标记待审核"的过滤器——这和一个"永远输出待审核"的无脑基线效果相同,完全没有帮助。执行器的聪明程度,取决于它读到的胶囊有多完整。
---
六、压力测试:如果AI提取阶段出了错,会怎样?
研究团队还做了一个"压力测试":把第一阶段(指令提取)的输出从人工标注的黄金答案替换为Claude Sonnet 4.5少样本预测的结果,然后观察整套系统的表现是否会大幅下降。
结果是:在饱和度-A会话上,系统表现从κ=0.71温和地降至κ=0.51;在饱和度-B会话上,尽管预测结果的精确率只有34.8%(也就是说AI多识别了很多其实不是指令的段落),执行器仍然在原始AI提案基础上成功恢复了54.6个百分点的准确率;在"信号跌落"会话上,由于那个会话的记录本本来就很短(只有9个文件),过度检测问题更明显,预测EDE的表现不理想。
这个测试揭示了系统目前最薄弱的环节:第一阶段的精确率(避免把非指令误判为指令)是瓶颈,而不是召回率(找到所有真实指令)。但关键的安全属性没有被破坏:在任何场景下,系统都没有在没有明确支持的情况下执行强力操作。即使第一阶段出错了,执行器仍然保住了安全底线。
---
**说到底,这项研究发现了什么,对我们意味着什么**
归根结底,这项研究回答了一个看似简单、实则深刻的问题:当科学家说"我不确定",AI听懂了吗?
研究团队发现,现有的AI系统几乎都没有听懂。它们要么把"不确定"当成"确定"来执行,要么把"确定"淹没在一堆"不确定"里视而不见。两种失误都会在科学数据处理中造成真实的危害——前者让AI擅自丢弃了研究者自己都没下定论的数据,后者让AI保留了研究者明确标记为无效的垃圾数据。
Notes2Skills的答案是:给每一句话贴上"确定性标签",然后用一个严格的规则检查器来守住这条标签的含义,不让它在从记录本到AI决策的传递链条中悄悄消失。整套系统在三个真实的湿实验室数据会话上,是唯一一个能同时避免两种失误的配置。
这对普通人意味着什么?随着AI助手越来越多地进入科研工作流程,科学发现的可靠性将越来越依赖于AI能否准确理解科学家的真实意图——包括他们确定的部分,也包括他们不确定的部分。一个不懂"犹豫"的AI助手,就像一个从不听建议只会执行命令的机器人,在最需要谨慎的时刻反而最危险。Notes2Skills框架提供了一个让AI"听懂犹豫"的技术路径,对未来的AI辅助科学发现系统有重要的参考意义。
当然,这项研究目前还有明显的局限性。整个测试只覆盖了纳米孔传感这一个具体的生物物理学应用场景,数据量也相对有限(48个下游测试文件)。构建FreeNotes这样的标注数据集需要跨机构合作、资深研究员参与和反复标注修正,规模化推广的成本不容忽视。未来的工作需要在更多科学领域、更多类型的记录本上验证这套框架是否同样有效。
有兴趣深入了解技术细节的读者,可以通过arXiv编号2606.11897查阅完整论文,里面包含了完整的提示词模板、MetaSkill胶囊格式规范和全部实验数据的细节分析。
---
Q&A
Q1:Notes2Skills框架中的"不确定性漂白"是什么意思?
A:不确定性漂白指的是AI把科学家在实验记录本里的模糊猜测当成确定指令来执行。比如科学家写的是"不确定这段数据是否可靠",AI却直接把这段数据丢弃,就好像科学家明确说了"删掉它"一样。Notes2Skills通过给每句话贴"确定性标签"来防止这种误操作。
Q2:MetaSkill胶囊里的哈希值有什么用?
A:哈希值就像一段文字的"数字指纹",保证MetaSkill胶囊里引用的原文片段和实验记录本里的原始文字完全一致,没有被篡改或误解。任何人都可以用这个哈希值独立验证AI的决策依据,保证整个处理过程透明可审计。
Q3:Notes2Skills系统中执行器的作用是什么?
A:执行器是一个规则明确的检查模块,在AI提出处理方案之后进行最终审核。它会对照MetaSkill胶囊里的确定性标签和信号数据,判断AI的提案是否有充分依据。如果AI想执行强力操作但依据不足,执行器会将其降级为"标记待审核";如果AI过于保守但存在明确的事实性指令,执行器则会主动升级操作。