以Deep Research构建Rubric：面向开放任务的强化学习框架-DR-Rubric-酒店常州论坛

在数学证明等有明确标准答案的任务中，强化学习可依托结果对错生成奖励；但开放式推理、深度研究、专业问答等场景，评价维度多元【事实准确性、逻辑完整性、内容深度、避错能力等】，单一打分或二元奖励信号过于稀疏，无法有效引导模型优化。

现有基于Rubric的强化学习方案，大多将准则视为预设产物，依赖人工编写或简单提示词生成，缺失任务专属的知识类约束，极易扭曲奖励信号。下面来看一个有趣的思路-DR-Rubric（Deep Research as Rubric）框架，将评估准则的构建本身定义为深度研究任务，借助智能体多轮检索与知识合成能力生成证据驱动的细粒度准则，搭配GRPO算法完成模型优化，同时支持模型自举生成准则，大幅提升训练效率与任务适配能力。

什么是Rubric？wikipeida描述

In the realm of US education, a rubric is a “scoring guide used to evaluate the quality of students’ constructed responses” according to James Popham. In simpler terms, it serves as a set of criteria for grading assignments. Typically presented in table format, rubrics contain evaluative criteria, quality definitions for various levels of achievement, and a scoring strategy. They play a dual role for teachers in marking assignments and for students in planning their work.

Rubric 将整体质量拆解为多个可独立判断的细粒度维度，提供分阶段奖励。但现存方案存在两大缺陷：

人工编写准则：成本极高、扩展性差，无法适配海量多样化任务；
提示词生成准则：仅依赖模型自身参数知识，缺乏外部事实支撑，只能覆盖文本流畅度等表层维度，遗漏核心知识约束与常见错误模式。

DR-Rubric的核心思路：评估准则的构建等价于一次深度研究。想要定义【优质回答的标准】，就需要主动检索、汇总外部领域知识、任务结构约束与模型常见错误，再将这些研究证据转化为可量化、可独立校验的原子化评估规则，最终基于规则生成密集奖励，驱动大模型强化学习。同时框架支持自举（Bootstrap）模式，让训练中的模型自主生成准则，摆脱对GPT-5、Gemini等外部大模型的依赖。

二、DR-Rubric整体框架

如上图，DR-Rubric是一套三模块联动的完整流水线，包含准则自动生成、基于准则的强化学习、自举式准则迭代三大核心部分，整体流程分为两大核心阶段与循环迭代链路，全程基于GRPO（分组相对策略优化）完成模型训练。

（一）核心符号定义

先明确框架通用符号，便于理解后续公式与流程：

符号	含义
ppp	训练任务提示/查询
mgenm_{gen}mgen	负责深度研究与准则生成的模型
Sp\mathcal{S}_{p}Sp	单条查询对应的证据集（领域事实、错误模式等）
Rp\mathcal{R}_{p}Rp	为查询ppp定制的评估准则集合
ccc	准则中的单条原子约束（最小评估单元）
xxx	模型生成的回答文本
mjudgem_{judge}mjudge	校验约束是否满足的判断模型
πθ\pi_{\theta}πθ	待优化的策略模型（主训练模型）
GGG	GRPO单批次采样的回答数量

（二）阶段一：信息提取（证据采集）

该阶段通过智能体多轮迭代检索完成深度研究，目标是为每条查询ppp收集完备的证据集Sp\mathcal{S}_{p}Sp，包含领域客观事实、回答结构要求、高频错误三类核心信息。

执行逻辑：生成模型mgenm_{gen}mgen以查询ppp为起点，执行多轮搜索、查询优化、证据核验，交互轮次受上限kkk约束（控制计算成本）。每一轮检索都会基于上一轮结果调整查询，避免关键信息遗漏；
核心区别：传统检索增强生成（RAG）目标是直接回答问题，而本阶段检索目标是定义回答的评价标准，探索方向聚焦“优质回答需要满足哪些条件”“模型容易在哪些环节出错”；
公式表达：
Sp=fcol(p,T,k;mgen)\mathcal{S}_{p}=f_{col }\left(p, \mathcal{T}, k ; m_{gen}\right)Sp=fcol(p,T,k;mgen)
fcolf_{col}fcol代表证据采集函数，T\mathcal{T}T为外部工具集，kkk为最大交互轮次，输出结构化证据集Sp\mathcal{S}_{p}Sp。

（三）阶段二：准则合成（约束提炼）

将第一阶段得到的非结构化证据集Sp\mathcal{S}_{p}Sp，提炼为原子化、可独立程序校验的约束集合Rp\mathcal{R}_{p}Rp，也就是最终的评估准则。

原子约束定义：单条约束ccc是不可拆分的评估规则，分为正向要求（回答需包含XX内容）与反向禁令（回答不得出现XX错误），所有约束权重一致；
约束数量控制：设置上限nmaxn_{max}nmax，避免准则冗余、引入噪声；
公式表达：
Rp=fsyn(Sp,nmax; mgen)\mathcal{R}_{p}=f_{syn}(\mathcal{S}_{p},n_{max};\, m_{gen})Rp=fsyn(Sp,nmax;mgen)
fsynf_{syn}fsyn为约束合成函数，输出针对查询ppp的专属准则Rp={c1,c2,...,cn}\mathcal{R}_{p}=\{c_{1}, c_{2}, ..., c_{n}\}Rp={c1,c2,...,cn}，每条约束均可溯源至证据集Sp\mathcal{S}_{p}Sp中的具体内容，确保准则基于外部事实而非模型固有偏见。

（四）基于准则的强化学习（GRPO优化）

将定制准则转化为密集奖励信号，对策略模型πθ\pi_{\theta}πθ进行参数更新，分为奖励计算与策略更新两步。

1. 奖励计算

判断模型mjudgem_{judge}mjudge逐条校验回答xxx是否满足原子约束ccc，输出0/1二值结果（不满足/满足），最终奖励为所有约束得分的平均值。这种设计能实现部分得分机制，回答满足部分约束即可获得对应奖励，相比全局单一分数，信号更密集、梯度更稳定。
公式表达：
R(p,x)=1∣Rp∣∑c∈RpJc(x;mjudge)R(p, x)=\frac{1}{\left|\mathcal{R}_{p}\right|} \sum_{c \in \mathcal{R}_{p}} J_{c}\left(x ; m_{j u d g e}\right)R(p,x)=∣Rp∣1c∈Rp∑Jc(x;mjudge)
JcJ_cJc为单条约束的判断结果（0或1）。

2. 策略更新

采用GRPO算法优化策略模型，搭配Token级KL散度约束防止模型偏移过大：

对单条查询采样GGG个回答，计算组内归一化优势值，消除不同查询的奖励尺度差异；

引入KL散度限制策略与基准模型的差距，最终损失函数结合裁剪概率比目标与KL惩罚项，完成参数迭代；

其中ϵ\epsilonϵ为裁剪系数，β\betaβ为KL惩罚权重。

（五）自举（Bootstrap）准则生成（自迭代循环）

这是DR-Rubric的核心拓展能力，解决依赖外部顶级大模型生成准则的高成本问题。随着策略模型πθ\pi_{\theta}πθ能力提升，训练后的模型可接替mgenm_{gen}mgen，自主完成“证据采集+准则合成”，形成自我提升闭环。

迭代逻辑：在第ttt轮自举中，当前策略模型πθt\pi_{\theta_t}πθt直接作为准则生成模型，生成新一轮准则Rp,t\mathcal{R}_{p,t}Rp,t；再用该准则计算奖励，更新得到新模型πθt+1\pi_{\theta_{t+1}}πθt+1；
公式表达：

迭代特性：自举并非单调提升，会呈现能力专精→重新平衡的演化规律：首轮自举模型会偏向推理能力、弱化智能检索能力，多轮迭代后两类能力逐步恢复平衡，第3轮自举通常达到综合最优效果。

实验

参考文献

Deep Research as Rubric for Reinforcement Learning，https://arxiv.org/pdf/2606.01091

企业官网建设流程全解析

二、DR-Rubric整体框架

（一）核心符号定义

（二）阶段一：信息提取（证据采集）

（三）阶段二：准则合成（约束提炼）

（四）基于准则的强化学习（GRPO优化）

1. 奖励计算

2. 策略更新

（五）自举（Bootstrap）准则生成（自迭代循环）

实验

参考文献

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

二、DR-Rubric整体框架

（一）核心符号定义

（二）阶段一：信息提取（证据采集）

（三）阶段二：准则合成（约束提炼）

（四）基于准则的强化学习（GRPO优化）

1. 奖励计算

2. 策略更新

（五）自举（Bootstrap）准则生成（自迭代循环）

实验

参考文献

热门文章

文章分类

标签云

相关文章

MySQL 8.0 窗口函数实战：3种排名场景与5道经典习题解析

Linux .desktop 文件 Categories 字段：5 个常见配置错误与精准排错指南

RDP Wrapper v1.6.2 配置 Windows 11 24H2 多用户远程：3步解决 Listening [not supported]

需要专业的网站建设服务？