在数学证明等有明确标准答案的任务中,强化学习可依托结果对错生成奖励;但开放式推理、深度研究、专业问答等场景,评价维度多元【事实准确性、逻辑完整性、内容深度、避错能力等】,单一打分或二元奖励信号过于稀疏,无法有效引导模型优化。
现有基于Rubric的强化学习方案,大多将准则视为预设产物,依赖人工编写或简单提示词生成,缺失任务专属的知识类约束,极易扭曲奖励信号。下面来看一个有趣的思路-DR-Rubric(Deep Research as Rubric)框架,将评估准则的构建本身定义为深度研究任务,借助智能体多轮检索与知识合成能力生成证据驱动的细粒度准则,搭配GRPO算法完成模型优化,同时支持模型自举生成准则,大幅提升训练效率与任务适配能力。
什么是Rubric?wikipeida描述
In the realm of US education, a rubric is a “scoring guide used to evaluate the quality of students’ constructed responses” according to James Popham. In simpler terms, it serves as a set of criteria for grading assignments. Typically presented in table format, rubrics contain evaluative criteria, quality definitions for various levels of achievement, and a scoring strategy. They play a dual role for teachers in marking assignments and for students in planning their work.
Rubric 将整体质量拆解为多个可独立判断的细粒度维度,提供分阶段奖励。但现存方案存在两大缺陷:
- 人工编写准则:成本极高、扩展性差,无法适配海量多样化任务;
- 提示词生成准则:仅依赖模型自身参数知识,缺乏外部事实支撑,只能覆盖文本流畅度等表层维度,遗漏核心知识约束与常见错误模式。
DR-Rubric的核心思路:评估准则的构建等价于一次深度研究。想要定义【优质回答的标准】,就需要主动检索、汇总外部领域知识、任务结构约束与模型常见错误,再将这些研究证据转化为可量化、可独立校验的原子化评估规则,最终基于规则生成密集奖励,驱动大模型强化学习。同时框架支持自举(Bootstrap)模式,让训练中的模型自主生成准则,摆脱对GPT-5、Gemini等外部大模型的依赖。
二、DR-Rubric整体框架
如上图,DR-Rubric是一套三模块联动的完整流水线,包含准则自动生成、基于准则的强化学习、自举式准则迭代三大核心部分,整体流程分为两大核心阶段与循环迭代链路,全程基于GRPO(分组相对策略优化)完成模型训练。
(一)核心符号定义
先明确框架通用符号,便于理解后续公式与流程:
| 符号 | 含义 |
|---|---|
| ppp | 训练任务提示/查询 |
| mgenm_{gen}mgen | 负责深度研究与准则生成的模型 |
| Sp\mathcal{S}_{p}Sp | 单条查询对应的证据集(领域事实、错误模式等) |
| Rp\mathcal{R}_{p}Rp | 为查询ppp定制的评估准则集合 |
| ccc | 准则中的单条原子约束(最小评估单元) |
| xxx | 模型生成的回答文本 |
| mjudgem_{judge}mjudge | 校验约束是否满足的判断模型 |
| πθ\pi_{\theta}πθ | 待优化的策略模型(主训练模型) |
| GGG | GRPO单批次采样的回答数量 |
(二)阶段一:信息提取(证据采集)
该阶段通过智能体多轮迭代检索完成深度研究,目标是为每条查询ppp收集完备的证据集Sp\mathcal{S}_{p}Sp,包含领域客观事实、回答结构要求、高频错误三类核心信息。
- 执行逻辑:生成模型mgenm_{gen}mgen以查询ppp为起点,执行多轮搜索、查询优化、证据核验,交互轮次受上限kkk约束(控制计算成本)。每一轮检索都会基于上一轮结果调整查询,避免关键信息遗漏;
- 核心区别:传统检索增强生成(RAG)目标是直接回答问题,而本阶段检索目标是定义回答的评价标准,探索方向聚焦“优质回答需要满足哪些条件”“模型容易在哪些环节出错”;
- 公式表达:
Sp=fcol(p,T,k;mgen)\mathcal{S}_{p}=f_{col }\left(p, \mathcal{T}, k ; m_{gen}\right)Sp=fcol(p,T,k;mgen)
fcolf_{col}fcol代表证据采集函数,T\mathcal{T}T为外部工具集,kkk为最大交互轮次,输出结构化证据集Sp\mathcal{S}_{p}Sp。
(三)阶段二:准则合成(约束提炼)
将第一阶段得到的非结构化证据集Sp\mathcal{S}_{p}Sp,提炼为原子化、可独立程序校验的约束集合Rp\mathcal{R}_{p}Rp,也就是最终的评估准则。
- 原子约束定义:单条约束ccc是不可拆分的评估规则,分为正向要求(回答需包含XX内容)与反向禁令(回答不得出现XX错误),所有约束权重一致;
- 约束数量控制:设置上限nmaxn_{max}nmax,避免准则冗余、引入噪声;
- 公式表达:
Rp=fsyn(Sp,nmax; mgen)\mathcal{R}_{p}=f_{syn}(\mathcal{S}_{p},n_{max};\, m_{gen})Rp=fsyn(Sp,nmax;mgen)
fsynf_{syn}fsyn为约束合成函数,输出针对查询ppp的专属准则Rp={c1,c2,...,cn}\mathcal{R}_{p}=\{c_{1}, c_{2}, ..., c_{n}\}Rp={c1,c2,...,cn},每条约束均可溯源至证据集Sp\mathcal{S}_{p}Sp中的具体内容,确保准则基于外部事实而非模型固有偏见。
(四)基于准则的强化学习(GRPO优化)
将定制准则转化为密集奖励信号,对策略模型πθ\pi_{\theta}πθ进行参数更新,分为奖励计算与策略更新两步。
1. 奖励计算
判断模型mjudgem_{judge}mjudge逐条校验回答xxx是否满足原子约束ccc,输出0/1二值结果(不满足/满足),最终奖励为所有约束得分的平均值。这种设计能实现部分得分机制,回答满足部分约束即可获得对应奖励,相比全局单一分数,信号更密集、梯度更稳定。
公式表达:
R(p,x)=1∣Rp∣∑c∈RpJc(x;mjudge)R(p, x)=\frac{1}{\left|\mathcal{R}_{p}\right|} \sum_{c \in \mathcal{R}_{p}} J_{c}\left(x ; m_{j u d g e}\right)R(p,x)=∣Rp∣1c∈Rp∑Jc(x;mjudge)
JcJ_cJc为单条约束的判断结果(0或1)。
2. 策略更新
采用GRPO算法优化策略模型,搭配Token级KL散度约束防止模型偏移过大:
- 对单条查询采样GGG个回答,计算组内归一化优势值,消除不同查询的奖励尺度差异;
- 引入KL散度限制策略与基准模型的差距,最终损失函数结合裁剪概率比目标与KL惩罚项,完成参数迭代;
其中ϵ\epsilonϵ为裁剪系数,β\betaβ为KL惩罚权重。
(五)自举(Bootstrap)准则生成(自迭代循环)
这是DR-Rubric的核心拓展能力,解决依赖外部顶级大模型生成准则的高成本问题。随着策略模型πθ\pi_{\theta}πθ能力提升,训练后的模型可接替mgenm_{gen}mgen,自主完成“证据采集+准则合成”,形成自我提升闭环。
- 迭代逻辑:在第ttt轮自举中,当前策略模型πθt\pi_{\theta_t}πθt直接作为准则生成模型,生成新一轮准则Rp,t\mathcal{R}_{p,t}Rp,t;再用该准则计算奖励,更新得到新模型πθt+1\pi_{\theta_{t+1}}πθt+1;
- 公式表达:
- 迭代特性:自举并非单调提升,会呈现能力专精→重新平衡的演化规律:首轮自举模型会偏向推理能力、弱化智能检索能力,多轮迭代后两类能力逐步恢复平衡,第3轮自举通常达到综合最优效果。
实验
参考文献
Deep Research as Rubric for Reinforcement Learning,https://arxiv.org/pdf/2606.01091