北大:首个生物流程推理大规模基准
2026/4/27 13:53:24 网站建设 项目流程

摘要

大语言模型(LLM)难以掌握生物实验流程所需的严格程序逻辑与操作精度,制约了自主科学实验的实现。为解决这一核心问题,本文提出面向生物流程推理的综合性评测资源BioProBench。该资源以BioProCorpus为基础,构建了包含27,000篇人工撰写实验流程的基础语料库,并基于此系统性构建了超55万个任务实例的数据集,兼具大规模训练资源与含新型评测指标的严谨基准。本文对10款主流大语言模型进行评测后发现,模型在通用理解任务中表现良好,但在需要深度推理、定量精度与安全意识的任务上性能显著下降。为验证BioProCorpus的实用价值,本文研发了ProAgent,依托该语料库大幅提升了现有模型性能。BioProBench为下一代高可靠性科学人工智能提供了严谨的诊断基准与基础资源。

代码与数据

https://github.com/YuyangSunshine/bioprotocolbench

https: //huggingface.co/datasets/BioProBench/BioProBench

{liuyuyang13, yuanli-ece, yhtian}@pku.edu.cn

{lvliuzh}@stu.pku.edu.cn

#BioProBench #生物实验流程 #流程理解 #流程推理 #数据集 #基准评测 #大语言模型 #ProAgent

BioProBench的设计与构建

BioProCorpus语料库的采集与清洗

图1 BioProBench总体架构

BioProBench总体架构,包含

(a)BioProCorpus数据来源与数量分布;

(b)任务与子任务数量;

(c)生物学科类别数量;

(d)生物学科类别占比。

数据集与基准构建

图2 BioProBench构建流程

BioProBench构建流程包含3大核心阶段:

首先通过采集、清洗与扩充原始科学实验流程,构建结构化的BioProCorpus语料库;

其次基于该语料库构建5大任务;

最后通过自动化筛选与专家验证完成基准的质量过滤。

图3 BioProBench基准中各任务的典型示例

BioProBench基准中协议问答、步骤排序、错误修正、协议生成、流程推理5大任务的典型样本示例。

评估指标

表1 BioProBench框架的评估指标

箭头表示各指标的最优趋势(↑代表越高越好,↓代表越低越好)。

实验流程智能体(ProAgent)

图4 ProAgent架构

ProAgent架构包含规划器、自适应检索器、任务优化生成器,依托BioProBench语料库的知识库,实现任务自适应的流程推理。

实验

大语言模型在BioProBench基准上的性能

图5 (a)协议问答任务性能对比 (b)步骤排序任务性能对比

(a)协议问答任务以准确率(Acc)与布里尔分数(BS)为评测指标的性能对比;

(b)步骤排序任务以精确匹配(EM)与肯德尔相关系数(τ)为评测指标的性能对比。各任务主指标最优值以红色标注。

表2 错误修正任务性能对比

最优值以蓝色标注,次优值以浅蓝色标注。

表3 错流程推理-错误修正任务性能对比

最优值以蓝色标注,次优值以浅蓝色标注。

图6 协议生成任务在直接提示与0样本思维链提示下的综合性能对比

协议生成任务在直接提示、0样本思维链提示2种模式下,各模型在精确率、召回率、F1值、BLEU、METEOR、ROUGE-L、步骤精准度等指标的综合性能对比。

ProAgent性能分析

图7 ProAgent与Gemini-2.5的综合性能对比

ProAgent与Gemini-2.5在协议问答、步骤排序、错误修正、协议生成及外部基准LABBench上的综合性能对比。

详细总结

思维导图

评估指标体系

参考

BioProBench: Comprehensive Dataset and Benchmark in Biological Protocol Understanding and Reasoning

https://doi.org/10.48550/arXiv.2505.07889

260121BioProBench.pdf

注:AI辅助创作,如有错误欢迎指出。内容仅供参考,不构成任何建议。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询