以Deep Research构建Rubric:面向开放任务的强化学习框架-DR-Rubric

发布时间:2026/7/6 2:18:39
以Deep Research构建Rubric:面向开放任务的强化学习框架-DR-Rubric 在数学证明等有明确标准答案的任务中强化学习可依托结果对错生成奖励但开放式推理、深度研究、专业问答等场景评价维度多元【事实准确性、逻辑完整性、内容深度、避错能力等】单一打分或二元奖励信号过于稀疏无法有效引导模型优化。现有基于Rubric的强化学习方案大多将准则视为预设产物依赖人工编写或简单提示词生成缺失任务专属的知识类约束极易扭曲奖励信号。下面来看一个有趣的思路-DR-RubricDeep Research as Rubric框架将评估准则的构建本身定义为深度研究任务借助智能体多轮检索与知识合成能力生成证据驱动的细粒度准则搭配GRPO算法完成模型优化同时支持模型自举生成准则大幅提升训练效率与任务适配能力。什么是Rubricwikipeida描述In the realm of US education, a rubric is a “scoring guide used to evaluate the quality of students’ constructed responses” according to James Popham. In simpler terms, it serves as a set of criteria for grading assignments. Typically presented in table format, rubrics contain evaluative criteria, quality definitions for various levels of achievement, and a scoring strategy. They play a dual role for teachers in marking assignments and for students in planning their work.Rubric 将整体质量拆解为多个可独立判断的细粒度维度提供分阶段奖励。但现存方案存在两大缺陷人工编写准则成本极高、扩展性差无法适配海量多样化任务提示词生成准则仅依赖模型自身参数知识缺乏外部事实支撑只能覆盖文本流畅度等表层维度遗漏核心知识约束与常见错误模式。DR-Rubric的核心思路评估准则的构建等价于一次深度研究。想要定义【优质回答的标准】就需要主动检索、汇总外部领域知识、任务结构约束与模型常见错误再将这些研究证据转化为可量化、可独立校验的原子化评估规则最终基于规则生成密集奖励驱动大模型强化学习。同时框架支持自举Bootstrap模式让训练中的模型自主生成准则摆脱对GPT-5、Gemini等外部大模型的依赖。二、DR-Rubric整体框架如上图DR-Rubric是一套三模块联动的完整流水线包含准则自动生成、基于准则的强化学习、自举式准则迭代三大核心部分整体流程分为两大核心阶段与循环迭代链路全程基于GRPO分组相对策略优化完成模型训练。一核心符号定义先明确框架通用符号便于理解后续公式与流程符号含义ppp训练任务提示/查询mgenm_{gen}mgen​负责深度研究与准则生成的模型Sp\mathcal{S}_{p}Sp​单条查询对应的证据集领域事实、错误模式等Rp\mathcal{R}_{p}Rp​为查询ppp定制的评估准则集合ccc准则中的单条原子约束最小评估单元xxx模型生成的回答文本mjudgem_{judge}mjudge​校验约束是否满足的判断模型πθ\pi_{\theta}πθ​待优化的策略模型主训练模型GGGGRPO单批次采样的回答数量二阶段一信息提取证据采集该阶段通过智能体多轮迭代检索完成深度研究目标是为每条查询ppp收集完备的证据集Sp\mathcal{S}_{p}Sp​包含领域客观事实、回答结构要求、高频错误三类核心信息。执行逻辑生成模型mgenm_{gen}mgen​以查询ppp为起点执行多轮搜索、查询优化、证据核验交互轮次受上限kkk约束控制计算成本。每一轮检索都会基于上一轮结果调整查询避免关键信息遗漏核心区别传统检索增强生成RAG目标是直接回答问题而本阶段检索目标是定义回答的评价标准探索方向聚焦“优质回答需要满足哪些条件”“模型容易在哪些环节出错”公式表达Spfcol(p,T,k;mgen)\mathcal{S}_{p}f_{col }\left(p, \mathcal{T}, k ; m_{gen}\right)Sp​fcol​(p,T,k;mgen​)fcolf_{col}fcol​代表证据采集函数T\mathcal{T}T为外部工具集kkk为最大交互轮次输出结构化证据集Sp\mathcal{S}_{p}Sp​。三阶段二准则合成约束提炼将第一阶段得到的非结构化证据集Sp\mathcal{S}_{p}Sp​提炼为原子化、可独立程序校验的约束集合Rp\mathcal{R}_{p}Rp​也就是最终的评估准则。原子约束定义单条约束ccc是不可拆分的评估规则分为正向要求回答需包含XX内容与反向禁令回答不得出现XX错误所有约束权重一致约束数量控制设置上限nmaxn_{max}nmax​避免准则冗余、引入噪声公式表达Rpfsyn(Sp,nmax; mgen)\mathcal{R}_{p}f_{syn}(\mathcal{S}_{p},n_{max};\, m_{gen})Rp​fsyn​(Sp​,nmax​;mgen​)fsynf_{syn}fsyn​为约束合成函数输出针对查询ppp的专属准则Rp{c1,c2,...,cn}\mathcal{R}_{p}\{c_{1}, c_{2}, ..., c_{n}\}Rp​{c1​,c2​,...,cn​}每条约束均可溯源至证据集Sp\mathcal{S}_{p}Sp​中的具体内容确保准则基于外部事实而非模型固有偏见。四基于准则的强化学习GRPO优化将定制准则转化为密集奖励信号对策略模型πθ\pi_{\theta}πθ​进行参数更新分为奖励计算与策略更新两步。1. 奖励计算判断模型mjudgem_{judge}mjudge​逐条校验回答xxx是否满足原子约束ccc输出0/1二值结果不满足/满足最终奖励为所有约束得分的平均值。这种设计能实现部分得分机制回答满足部分约束即可获得对应奖励相比全局单一分数信号更密集、梯度更稳定。公式表达R(p,x)1∣Rp∣∑c∈RpJc(x;mjudge)R(p, x)\frac{1}{\left|\mathcal{R}_{p}\right|} \sum_{c \in \mathcal{R}_{p}} J_{c}\left(x ; m_{j u d g e}\right)R(p,x)∣Rp​∣1​c∈Rp​∑​Jc​(x;mjudge​)JcJ_cJc​为单条约束的判断结果0或1。2. 策略更新采用GRPO算法优化策略模型搭配Token级KL散度约束防止模型偏移过大对单条查询采样GGG个回答计算组内归一化优势值消除不同查询的奖励尺度差异引入KL散度限制策略与基准模型的差距最终损失函数结合裁剪概率比目标与KL惩罚项完成参数迭代其中ϵ\epsilonϵ为裁剪系数β\betaβ为KL惩罚权重。五自举Bootstrap准则生成自迭代循环这是DR-Rubric的核心拓展能力解决依赖外部顶级大模型生成准则的高成本问题。随着策略模型πθ\pi_{\theta}πθ​能力提升训练后的模型可接替mgenm_{gen}mgen​自主完成“证据采集准则合成”形成自我提升闭环。迭代逻辑在第ttt轮自举中当前策略模型πθt\pi_{\theta_t}πθt​​直接作为准则生成模型生成新一轮准则Rp,t\mathcal{R}_{p,t}Rp,t​再用该准则计算奖励更新得到新模型πθt1\pi_{\theta_{t1}}πθt1​​公式表达迭代特性自举并非单调提升会呈现能力专精→重新平衡的演化规律首轮自举模型会偏向推理能力、弱化智能检索能力多轮迭代后两类能力逐步恢复平衡第3轮自举通常达到综合最优效果。实验参考文献Deep Research as Rubric for Reinforcement Learninghttps://arxiv.org/pdf/2606.01091