摘要
大语言模型(LLM)难以掌握生物实验流程所需的严格程序逻辑与操作精度,制约了自主科学实验的实现。为解决这一核心问题,本文提出面向生物流程推理的综合性评测资源BioProBench。该资源以BioProCorpus为基础,构建了包含27,000篇人工撰写实验流程的基础语料库,并基于此系统性构建了超55万个任务实例的数据集,兼具大规模训练资源与含新型评测指标的严谨基准。本文对10款主流大语言模型进行评测后发现,模型在通用理解任务中表现良好,但在需要深度推理、定量精度与安全意识的任务上性能显著下降。为验证BioProCorpus的实用价值,本文研发了ProAgent,依托该语料库大幅提升了现有模型性能。BioProBench为下一代高可靠性科学人工智能提供了严谨的诊断基准与基础资源。
代码与数据
https://github.com/YuyangSunshine/bioprotocolbench
https: //huggingface.co/datasets/BioProBench/BioProBench
{liuyuyang13, yuanli-ece, yhtian}@pku.edu.cn
{lvliuzh}@stu.pku.edu.cn
#BioProBench #生物实验流程 #流程理解 #流程推理 #数据集 #基准评测 #大语言模型 #ProAgent
BioProBench的设计与构建
BioProCorpus语料库的采集与清洗
图1 BioProBench总体架构
BioProBench总体架构,包含
(a)BioProCorpus数据来源与数量分布;
(b)任务与子任务数量;
(c)生物学科类别数量;
(d)生物学科类别占比。
数据集与基准构建
图2 BioProBench构建流程
BioProBench构建流程包含3大核心阶段:
首先通过采集、清洗与扩充原始科学实验流程,构建结构化的BioProCorpus语料库;
其次基于该语料库构建5大任务;
最后通过自动化筛选与专家验证完成基准的质量过滤。
图3 BioProBench基准中各任务的典型示例
BioProBench基准中协议问答、步骤排序、错误修正、协议生成、流程推理5大任务的典型样本示例。
评估指标
表1 BioProBench框架的评估指标
箭头表示各指标的最优趋势(↑代表越高越好,↓代表越低越好)。
实验流程智能体(ProAgent)
图4 ProAgent架构
ProAgent架构包含规划器、自适应检索器、任务优化生成器,依托BioProBench语料库的知识库,实现任务自适应的流程推理。
实验
大语言模型在BioProBench基准上的性能
图5 (a)协议问答任务性能对比 (b)步骤排序任务性能对比
(a)协议问答任务以准确率(Acc)与布里尔分数(BS)为评测指标的性能对比;
(b)步骤排序任务以精确匹配(EM)与肯德尔相关系数(τ)为评测指标的性能对比。各任务主指标最优值以红色标注。
表2 错误修正任务性能对比
最优值以蓝色标注,次优值以浅蓝色标注。
表3 错流程推理-错误修正任务性能对比
最优值以蓝色标注,次优值以浅蓝色标注。
图6 协议生成任务在直接提示与0样本思维链提示下的综合性能对比
协议生成任务在直接提示、0样本思维链提示2种模式下,各模型在精确率、召回率、F1值、BLEU、METEOR、ROUGE-L、步骤精准度等指标的综合性能对比。
ProAgent性能分析
图7 ProAgent与Gemini-2.5的综合性能对比
ProAgent与Gemini-2.5在协议问答、步骤排序、错误修正、协议生成及外部基准LABBench上的综合性能对比。
详细总结
思维导图
评估指标体系
参考
BioProBench: Comprehensive Dataset and Benchmark in Biological Protocol Understanding and Reasoning
https://doi.org/10.48550/arXiv.2505.07889
260121BioProBench.pdf
注:AI辅助创作,如有错误欢迎指出。内容仅供参考,不构成任何建议。