北大：首个生物流程推理大规模基准-酒店常州论坛

摘要

大语言模型（LLM）难以掌握生物实验流程所需的严格程序逻辑与操作精度，制约了自主科学实验的实现。为解决这一核心问题，本文提出面向生物流程推理的综合性评测资源BioProBench。该资源以BioProCorpus为基础，构建了包含27,000篇人工撰写实验流程的基础语料库，并基于此系统性构建了超55万个任务实例的数据集，兼具大规模训练资源与含新型评测指标的严谨基准。本文对10款主流大语言模型进行评测后发现，模型在通用理解任务中表现良好，但在需要深度推理、定量精度与安全意识的任务上性能显著下降。为验证BioProCorpus的实用价值，本文研发了ProAgent，依托该语料库大幅提升了现有模型性能。BioProBench为下一代高可靠性科学人工智能提供了严谨的诊断基准与基础资源。

代码与数据

https://github.com/YuyangSunshine/bioprotocolbench

https: //huggingface.co/datasets/BioProBench/BioProBench

{liuyuyang13, yuanli-ece, yhtian}@pku.edu.cn

{lvliuzh}@stu.pku.edu.cn

#BioProBench #生物实验流程 #流程理解 #流程推理 #数据集 #基准评测 #大语言模型 #ProAgent

BioProBench的设计与构建

BioProCorpus语料库的采集与清洗

图1 BioProBench总体架构

BioProBench总体架构，包含

（a）BioProCorpus数据来源与数量分布；

（b）任务与子任务数量；

（c）生物学科类别数量；

（d）生物学科类别占比。

数据集与基准构建

图2 BioProBench构建流程

BioProBench构建流程包含3大核心阶段：

首先通过采集、清洗与扩充原始科学实验流程，构建结构化的BioProCorpus语料库；

其次基于该语料库构建5大任务；

最后通过自动化筛选与专家验证完成基准的质量过滤。

图3 BioProBench基准中各任务的典型示例

BioProBench基准中协议问答、步骤排序、错误修正、协议生成、流程推理5大任务的典型样本示例。

评估指标

表1 BioProBench框架的评估指标

箭头表示各指标的最优趋势（↑代表越高越好，↓代表越低越好）。

实验流程智能体（ProAgent）

图4 ProAgent架构

ProAgent架构包含规划器、自适应检索器、任务优化生成器，依托BioProBench语料库的知识库，实现任务自适应的流程推理。

实验

大语言模型在BioProBench基准上的性能

图5 （a）协议问答任务性能对比（b）步骤排序任务性能对比

（a）协议问答任务以准确率（Acc）与布里尔分数（BS）为评测指标的性能对比；

（b）步骤排序任务以精确匹配（EM）与肯德尔相关系数（τ）为评测指标的性能对比。各任务主指标最优值以红色标注。

表2 错误修正任务性能对比

最优值以蓝色标注，次优值以浅蓝色标注。

表3 错流程推理-错误修正任务性能对比

最优值以蓝色标注，次优值以浅蓝色标注。

图6 协议生成任务在直接提示与0样本思维链提示下的综合性能对比

协议生成任务在直接提示、0样本思维链提示2种模式下，各模型在精确率、召回率、F1值、BLEU、METEOR、ROUGE-L、步骤精准度等指标的综合性能对比。

ProAgent性能分析

图7 ProAgent与Gemini-2.5的综合性能对比

ProAgent与Gemini-2.5在协议问答、步骤排序、错误修正、协议生成及外部基准LABBench上的综合性能对比。

详细总结

思维导图

评估指标体系

参考

BioProBench: Comprehensive Dataset and Benchmark in Biological Protocol Understanding and Reasoning

https://doi.org/10.48550/arXiv.2505.07889

260121BioProBench.pdf

注：AI辅助创作，如有错误欢迎指出。内容仅供参考，不构成任何建议。

企业官网建设流程全解析

摘要

BioProBench的设计与构建

评估指标

实验

详细总结

参考

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

摘要

BioProBench的设计与构建

评估指标

实验

详细总结

参考

热门文章

文章分类

标签云

相关文章

After Effects (AE)2026超详细保姆级下载安装教程（附免费安装包）附软件功能详解（新手零基础适用）

FPGA SPI通信避坑指南：以DAC8830为例，详解时钟分频、数据对齐与片选信号的那些坑

如何免费加速游戏帧率：OpenSpeedy开源游戏变速器完全指南

需要专业的网站建设服务？