加州大学圣地亚哥分校等:让AI学会“如何给出恰到好处的提示“
2026/4/18 12:00:22 网站建设 项目流程

这项由加州大学圣地亚哥分校与Snowflake AI Research联合开展的研究,于2026年4月以预印本形式发布,论文编号为arXiv:2604.00698。研究团队提出了一个名为HiLL(Hint Learning for Reinforcement Learning,面向强化学习的提示学习)的全新框架,致力于解决当前AI推理训练中一个棘手的根本性困境。

一、训练最难的那道题,往往学不到任何东西

教过孩子的家长都有这样的体验:如果一道题太难,孩子完全不知从何下手,那无论反复做多少遍,这道题对孩子的帮助都几乎为零。而如果题目太简单,孩子每次都能轻松做对,同样也学不到什么新东西。真正有价值的练习题,是那些处于"能做对一部分、做错一部分"的难度区间里的题目——这类题才能让孩子感受到努力的方向,也才能产生真正的进步。

AI的强化学习训练,面临着一模一样的困境。

当前训练大型语言模型推理能力的主流方法叫做GRPO(Group Relative Policy Optimization,组相对策略优化)。它的工作原理可以用一个简单的比喻来理解:老师出一道题,让学生做八遍,然后根据这八次答题的相对表现来给出指导——答对的那些答法比答错的更值得鼓励,答错的则要避免。然而问题来了:如果这八次全都答错了呢?老师完全无法分辨哪种"错法"更接近正确答案,因此什么指导也给不出去,这道题就白做了。反过来,如果这八次全都答对了,同样无法区分好坏,也白白浪费了一次训练机会。

这就是所谓的"优势崩塌"(advantage collapse):当一组练习的所有结果都一样时,学习信号彻底消失,训练陷入停滞。而偏偏那些AI最需要突破的难题,全错的概率最高,也最容易陷入这种困境。

为了解决这一问题,学界已经发展出几种不同的思路。一种是让AI对同一道题反复做更多次,希望偶然能做对几次;另一种是跳过那些"全对或全错"的无效题目,把算力集中到有价值的练习上;还有一种是给难题附上"提示",让AI在有提示的帮助下有机会做对,从而恢复学习信号。这最后一种思路,就是HiLL框架所深耕的方向。

二、提示的问题:固定且不管用

给难题加提示,听起来是个直觉上合理的解法。但现有的提示方法存在两个明显的短板,而这正是HiLL所要正面解决的核心问题。

第一个短板是:提示是固定的,不会随着AI的成长而调整。现有方法通常在训练开始前就预先生成好提示,或者从外部固定模板里拉取。但AI在训练过程中不断进步,今天卡住它的地方,和上周卡住它的地方往往已经不同。用固定的提示去应对一个持续变化的学习者,就像用同一套辅导材料辅导一个从小学到高中的孩子——早晚会脱节。

第二个短板更微妙,也更根本:一个提示让AI在"有提示"的情况下做对了题,并不意味着AI真的学到了什么。考试的时候是没有提示的。如果提示直接把关键步骤都告诉了AI,那AI在有提示时的正确解法,其实是"靠着提示才能走通的路",一旦提示消失,这条路就不存在了。训练在有提示的情境下,却期待在没提示的测试中表现提升,中间有一道很深的鸿沟。

打个比方:一个孩子不会解方程x?-5x+6=0。有两种提示可以给他。第一种提示说:"可以试着把左边分解成两个括号相乘的形式。"第二种提示直接告诉他:"注意,x?-5x+6=(x-2)(x-3)。"两种提示都可能让孩子最终答对这道题,但第一种提示给的是方向,孩子还需要自己动脑完成分解;第二种提示直接替他完成了最难的步骤,孩子下次遇到类似题目,未必真的会了。

现有的提示方法对这两种提示没有区分,它们只关心"有没有让AI做对题",不关心"做对的方式能不能在没有提示时复现"。这就是HiLL要弥补的关键缺口。

三、HiLL框架:让"出提示"本身成为一门学问

HiLL的核心创新在于:它不只是给难题加提示,而是训练一个专门负责"出提示"的AI(称为"提示者"),让它和负责"解题"的AI(称为"推理者")同步成长、相互配合。

整个训练过程像这样运作:推理者先对每道题独立做八遍,找出那些全部做错的"无效题"。针对每一道无效题,提示者会根据三个输入来生成提示:这道题本身的内容、推理者这次具体是怎么出错的、以及这道题的参考答案(参考答案只有提示者能看到,推理者在测试时永远看不到)。提示者会为每道无效题生成四个候选提示,推理者在每个候选提示的帮助下再做八遍,看看哪个提示能让结果从"全错"变成"有对有错",同时还要评估在有提示时做对的答法,在没有提示时是否依然可能出现。最终,表现最好的提示被选中用于本次训练更新,所有候选提示的评分则反过来用于训练提示者,让它下次出更好的提示。

这个过程有两个关键的精妙设计值得单独展开。

其一是"失败条件化生成":提示者看到的不只是题目,还有推理者具体是怎么出错的。这让提示者能够针对推理者当前的弱点来设计提示,而不是给出一个通用的方向。随着推理者不断进步,它出错的方式会变化,提示者也因此得到新的信息,从而持续调整提示策略。这就好比一个好的家教老师,不是拿着固定讲义照本宣科,而是先看学生的作业,找到这次具体错在哪里,再有针对性地点拨。

其二是对提示有效性的双重评分:一个提示不仅要能让推理者从"全错"变成"有对有错"(这叫做"信号创造"),还要让做对时的解法尽可能不依赖提示本身(这叫做"信号迁移")。

四、"提示依赖度":衡量提示是帮忙还是帮倒忙

为了量化"做对的解法有多依赖提示",研究团队引入了一个叫做"提示依赖度"(hint reliance)的指标。

它的计算方式直觉上很清晰:对于推理者在有提示情况下产生的每一个正确解法,分别计算这个解法在"有提示时"和"没有提示时"出现的概率,取对数之后相减。如果差值接近零,说明这个解法在没有提示时同样有可能出现,提示依赖度低;如果差值很大,说明这个解法在没有提示时几乎不可能出现,提示依赖度高。

研究团队进一步推导出了一个数学上严格的"迁移界"(transferability bound):没有提示时的正确率,至少等于有提示时的正确率乘以exp(-ρc),其中ρc就是提示依赖度。这个式子告诉我们,提示依赖度越低,有提示时的学习成果就越能迁移到没提示的测试场景中。这不是一个直觉上的猜测,而是有数学证明支撑的结论。

基于这个发现,提示者的奖励函数被设计为两部分的乘积:第一部分衡量提示是否把"全错"变成了"有对有错",第二部分根据提示依赖度对奖励进行折扣——依赖度越高,折扣越大,奖励越少。这样,提示者学到的不只是"出一个让AI做对题的提示",而是"出一个让AI用自己本来就有可能走通的方式做对题的提示"。这两者之间,有着本质的差别。

提示依赖度还有一个现实中的衡量指标:提示的长度和数学表达式的密度。研究观察到,没有迁移权重时,提示者倾向于给出很长的提示,里面充满了具体的公式、坐标设定和中间步骤计算——因为这样的提示最容易让推理者做对题。而加入迁移权重之后,提示者学会了给更短、更概念性的提示,比如"可以用参数化方法,然后消去参数找规律",而不是直接把参数方程写出来。因为给出关键步骤会导致正确解法高度依赖提示,受到惩罚;而给出策略方向,推理者还需要自己完成大量推导,做对时的解法更有可能在没有提示时也能实现。

五、实验结果:量化的进步与可视化的规律

研究团队在两个规模不同的推理模型上测试了HiLL:一个是较小的Llama-3.2-3B-Instruct(30亿参数),一个是较大的Qwen2.5-7B-Instruct(70亿参数)。提示者固定使用Qwen3-4B-Instruct。所有模型在包含15000道数学题的同一份数据集上训练500步,测试时提示者完全退出,只评估推理者的表现。

测试范围涵盖六个数学推理基准(包括难度颇高的AIME竞赛题、AMC竞赛题、MATH-500、Minerva Math、以及奥林匹克级别的OlympiadBench)和两个通用推理基准(研究生水平的GPQA以及知识广度测试MMLU-Pro)。

在较小的Llama模型上,标准GRPO训练后平均得分约为21.9分,加入外部固定提示的Scaf-GRPO约为21.5分,加入自生成提示的SAGE约为23.9分,而HiLL达到了24.6分,在没有迁移权重的HiLL变体(HiLL w/o TW)则为23.7分。在较大的Qwen模型上,标准GRPO约为41.1分,SAGE约为42.3分,而HiLL达到了44.2分,同样高于没有迁移权重的变体(42.7分)。

这些数字背后有一个值得关注的细节:在两个与数学完全无关的通用推理基准上,HiLL同样超过了所有基准方法。这说明更有效的学习信号带来的不只是数学能力的提升,而是推理能力本身的提升,并且能够迁移到其他领域。

训练过程中的动态曲线揭示了更多规律。研究团队记录了训练过程中"全错比例"(即无效题占所有训练题的比例)的变化。在Llama模型上,标准GRPO全程保持在约60%-70%的全错比例,意味着大多数训练题浪费在了无学习信号的无效组上。两个HiLL变体都大幅降低了这一比例,说明提示有效地把许多"全错"题变成了"有对有错"的有效学习素材。而在提示依赖度的曲线上,没有迁移权重的HiLL变体呈现出稳定上升的趋势——随着推理者越来越强,提示者为了继续制造有效信号,开始越来越多地直接给出答案步骤,导致依赖度攀升。有了迁移权重的HiLL则将提示依赖度稳定压在低位,与更高的最终准确率形成了清晰的对应关系。

温度参数T控制着迁移权重对提示依赖度的惩罚力度。T越小,惩罚越重,提示依赖度更低,但可能过度约束提示者,导致有效信号也减少;T越大,惩罚越轻,提示者更自由但依赖度上升。在实验中,T=0.3取得了信号创造和信号迁移之间最好的平衡,但即便是T=0.2或T=0.4,也依然比完全没有迁移权重的版本表现更好,说明这一机制的有效性相当稳健。

六、一点额外的观察:提示的"风格"也在学习

除了上述量化指标,研究团队还做了一个有趣的定性分析:对比HiLL和HiLL w/o TW生成的实际提示内容。

以一道几何题为例,题目要求找一条移动线段上某个交点的轨迹方程。没有迁移权重的版本给出的提示直接定义了参数、写出了点A和点B的坐标形式、以及直线PA和QB的方程该怎么建立,几乎把整个解题框架都搭好了——提示长达108个词,包含大量数学表达式,有提示时的正确率达到38%。有迁移权重的版本则给出了一句话:"可以用参数来表达交点,然后消去参数找隐藏的轨迹。"仅18个词,没有具体数学表达式,有提示时正确率只有13%——但这13%的正确解法,在没有提示时也有更大的可能性自发出现。

这个对比清晰展示了迁移权重究竟在塑造什么:它不只是一个数值上的调节旋钮,而是在改变提示者"教学哲学"——从"帮AI做题"转向"给AI指方向"。

计算成本方面,HiLL在Llama模型上每步约需标准GRPO的3.8倍时间,在Qwen模型上约需2.6倍,与同类的SAGE方法(2.3倍)处于同一数量级。由于额外计算只在全错题上触发,随着推理者变强、全错比例下降,开销也会自然降低。研究团队将这视为一个合理的代价权衡:额外时间全部花在了标准GRPO完全无法从中学到任何东西的那些训练样本上,把原本的浪费转化成了有价值的学习信号。

归根结底,HiLL解决的是一个"好学生也有天花板"的问题。当一个AI模型足够强大,能轻松解决大多数题目时,剩下那些真正难的题目反而成了最大的障碍——因为它们产生不了任何学习信号。HiLL给了这些题目一个出口:不是绕开它们,也不是暴力多做几遍,而是训练出一个懂得"怎么给提示"的伙伴,专门针对当前推理者的具体弱点,给出恰到好处的点拨——既能让推理者在这道题上找到方向,又不会让推理者形成依赖,确保学到的东西在考试时真的能用上。

这或许也给人类教育带来一点启发:真正好的教学,不在于把答案告诉学生,而在于找到学生能接住的那个提示,让他们自己走完剩下的路。有兴趣深入了解这项研究所有技术细节的读者,可以通过论文编号arXiv:2604.00698查阅完整论文。

Q&A

Q1:HiLL框架和普通GRPO训练有什么本质区别?

A:标准GRPO在遇到AI全部答错的难题时,完全无法给出学习信号,相当于白做了这道题。HiLL通过训练一个独立的"提示者"AI,专门针对这些难题生成有针对性的提示,把"全错"变成"有对有错",从而恢复学习信号。更关键的是,HiLL还会评估提示产生的正确答法是否在没有提示时也能复现,避免AI只是靠提示"作弊"通过,而没有真正学到东西。

Q2:提示依赖度(hint reliance)具体是怎么计算的?

A:对于推理者在有提示情况下产生的每个正确解法,分别计算这个解法在"有提示"和"没有提示"两种条件下出现的概率,取对数后相减。差值越接近零,说明这个解法不依赖提示;差值越大,说明这个解法离开提示就很难出现。研究团队还从数学上证明,提示依赖度越低,在有提示时学到的东西就越能迁移到没有提示的测试场景中。

Q3:HiLL框架训练出来的提示者,测试时会用到吗?

A:不会。提示者只在训练阶段参与工作,帮助推理者从难题中获得学习信号。测试时,提示者完全退出,只有推理者独立面对题目。这意味着HiLL带来的能力提升是推理者自身真实能力的提升,而不是靠提示者在测试时"辅助"得来的。实验中所有评测分数都是在没有提示者参与的条件下取得的。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询