加州大学圣地亚哥分校等：让AI学会“如何给出恰到好处的提示“-酒店常州论坛

这项由加州大学圣地亚哥分校与Snowflake AI Research联合开展的研究，于2026年4月以预印本形式发布，论文编号为arXiv:2604.00698。研究团队提出了一个名为HiLL（Hint Learning for Reinforcement Learning，面向强化学习的提示学习）的全新框架，致力于解决当前AI推理训练中一个棘手的根本性困境。

一、训练最难的那道题，往往学不到任何东西

教过孩子的家长都有这样的体验：如果一道题太难，孩子完全不知从何下手，那无论反复做多少遍，这道题对孩子的帮助都几乎为零。而如果题目太简单，孩子每次都能轻松做对，同样也学不到什么新东西。真正有价值的练习题，是那些处于"能做对一部分、做错一部分"的难度区间里的题目——这类题才能让孩子感受到努力的方向，也才能产生真正的进步。

AI的强化学习训练，面临着一模一样的困境。

当前训练大型语言模型推理能力的主流方法叫做GRPO（Group Relative Policy Optimization，组相对策略优化）。它的工作原理可以用一个简单的比喻来理解：老师出一道题，让学生做八遍，然后根据这八次答题的相对表现来给出指导——答对的那些答法比答错的更值得鼓励，答错的则要避免。然而问题来了：如果这八次全都答错了呢？老师完全无法分辨哪种"错法"更接近正确答案，因此什么指导也给不出去，这道题就白做了。反过来，如果这八次全都答对了，同样无法区分好坏，也白白浪费了一次训练机会。

这就是所谓的"优势崩塌"（advantage collapse）：当一组练习的所有结果都一样时，学习信号彻底消失，训练陷入停滞。而偏偏那些AI最需要突破的难题，全错的概率最高，也最容易陷入这种困境。

为了解决这一问题，学界已经发展出几种不同的思路。一种是让AI对同一道题反复做更多次，希望偶然能做对几次；另一种是跳过那些"全对或全错"的无效题目，把算力集中到有价值的练习上；还有一种是给难题附上"提示"，让AI在有提示的帮助下有机会做对，从而恢复学习信号。这最后一种思路，就是HiLL框架所深耕的方向。

二、提示的问题：固定且不管用

给难题加提示，听起来是个直觉上合理的解法。但现有的提示方法存在两个明显的短板，而这正是HiLL所要正面解决的核心问题。

第一个短板是：提示是固定的，不会随着AI的成长而调整。现有方法通常在训练开始前就预先生成好提示，或者从外部固定模板里拉取。但AI在训练过程中不断进步，今天卡住它的地方，和上周卡住它的地方往往已经不同。用固定的提示去应对一个持续变化的学习者，就像用同一套辅导材料辅导一个从小学到高中的孩子——早晚会脱节。

第二个短板更微妙，也更根本：一个提示让AI在"有提示"的情况下做对了题，并不意味着AI真的学到了什么。考试的时候是没有提示的。如果提示直接把关键步骤都告诉了AI，那AI在有提示时的正确解法，其实是"靠着提示才能走通的路"，一旦提示消失，这条路就不存在了。训练在有提示的情境下，却期待在没提示的测试中表现提升，中间有一道很深的鸿沟。

打个比方：一个孩子不会解方程x?-5x+6=0。有两种提示可以给他。第一种提示说："可以试着把左边分解成两个括号相乘的形式。"第二种提示直接告诉他："注意，x?-5x+6=(x-2)(x-3)。"两种提示都可能让孩子最终答对这道题，但第一种提示给的是方向，孩子还需要自己动脑完成分解；第二种提示直接替他完成了最难的步骤，孩子下次遇到类似题目，未必真的会了。

现有的提示方法对这两种提示没有区分，它们只关心"有没有让AI做对题"，不关心"做对的方式能不能在没有提示时复现"。这就是HiLL要弥补的关键缺口。

三、HiLL框架：让"出提示"本身成为一门学问

HiLL的核心创新在于：它不只是给难题加提示，而是训练一个专门负责"出提示"的AI（称为"提示者"），让它和负责"解题"的AI（称为"推理者"）同步成长、相互配合。

整个训练过程像这样运作：推理者先对每道题独立做八遍，找出那些全部做错的"无效题"。针对每一道无效题，提示者会根据三个输入来生成提示：这道题本身的内容、推理者这次具体是怎么出错的、以及这道题的参考答案（参考答案只有提示者能看到，推理者在测试时永远看不到）。提示者会为每道无效题生成四个候选提示，推理者在每个候选提示的帮助下再做八遍，看看哪个提示能让结果从"全错"变成"有对有错"，同时还要评估在有提示时做对的答法，在没有提示时是否依然可能出现。最终，表现最好的提示被选中用于本次训练更新，所有候选提示的评分则反过来用于训练提示者，让它下次出更好的提示。

这个过程有两个关键的精妙设计值得单独展开。

其一是"失败条件化生成"：提示者看到的不只是题目，还有推理者具体是怎么出错的。这让提示者能够针对推理者当前的弱点来设计提示，而不是给出一个通用的方向。随着推理者不断进步，它出错的方式会变化，提示者也因此得到新的信息，从而持续调整提示策略。这就好比一个好的家教老师，不是拿着固定讲义照本宣科，而是先看学生的作业，找到这次具体错在哪里，再有针对性地点拨。

其二是对提示有效性的双重评分：一个提示不仅要能让推理者从"全错"变成"有对有错"（这叫做"信号创造"），还要让做对时的解法尽可能不依赖提示本身（这叫做"信号迁移"）。

四、"提示依赖度"：衡量提示是帮忙还是帮倒忙

为了量化"做对的解法有多依赖提示"，研究团队引入了一个叫做"提示依赖度"（hint reliance）的指标。

它的计算方式直觉上很清晰：对于推理者在有提示情况下产生的每一个正确解法，分别计算这个解法在"有提示时"和"没有提示时"出现的概率，取对数之后相减。如果差值接近零，说明这个解法在没有提示时同样有可能出现，提示依赖度低；如果差值很大，说明这个解法在没有提示时几乎不可能出现，提示依赖度高。

研究团队进一步推导出了一个数学上严格的"迁移界"（transferability bound）：没有提示时的正确率，至少等于有提示时的正确率乘以exp(-ρc)，其中ρc就是提示依赖度。这个式子告诉我们，提示依赖度越低，有提示时的学习成果就越能迁移到没提示的测试场景中。这不是一个直觉上的猜测，而是有数学证明支撑的结论。

基于这个发现，提示者的奖励函数被设计为两部分的乘积：第一部分衡量提示是否把"全错"变成了"有对有错"，第二部分根据提示依赖度对奖励进行折扣——依赖度越高，折扣越大，奖励越少。这样，提示者学到的不只是"出一个让AI做对题的提示"，而是"出一个让AI用自己本来就有可能走通的方式做对题的提示"。这两者之间，有着本质的差别。

提示依赖度还有一个现实中的衡量指标：提示的长度和数学表达式的密度。研究观察到，没有迁移权重时，提示者倾向于给出很长的提示，里面充满了具体的公式、坐标设定和中间步骤计算——因为这样的提示最容易让推理者做对题。而加入迁移权重之后，提示者学会了给更短、更概念性的提示，比如"可以用参数化方法，然后消去参数找规律"，而不是直接把参数方程写出来。因为给出关键步骤会导致正确解法高度依赖提示，受到惩罚；而给出策略方向，推理者还需要自己完成大量推导，做对时的解法更有可能在没有提示时也能实现。

五、实验结果：量化的进步与可视化的规律

研究团队在两个规模不同的推理模型上测试了HiLL：一个是较小的Llama-3.2-3B-Instruct（30亿参数），一个是较大的Qwen2.5-7B-Instruct（70亿参数）。提示者固定使用Qwen3-4B-Instruct。所有模型在包含15000道数学题的同一份数据集上训练500步，测试时提示者完全退出，只评估推理者的表现。

测试范围涵盖六个数学推理基准（包括难度颇高的AIME竞赛题、AMC竞赛题、MATH-500、Minerva Math、以及奥林匹克级别的OlympiadBench）和两个通用推理基准（研究生水平的GPQA以及知识广度测试MMLU-Pro）。

在较小的Llama模型上，标准GRPO训练后平均得分约为21.9分，加入外部固定提示的Scaf-GRPO约为21.5分，加入自生成提示的SAGE约为23.9分，而HiLL达到了24.6分，在没有迁移权重的HiLL变体（HiLL w/o TW）则为23.7分。在较大的Qwen模型上，标准GRPO约为41.1分，SAGE约为42.3分，而HiLL达到了44.2分，同样高于没有迁移权重的变体（42.7分）。

这些数字背后有一个值得关注的细节：在两个与数学完全无关的通用推理基准上，HiLL同样超过了所有基准方法。这说明更有效的学习信号带来的不只是数学能力的提升，而是推理能力本身的提升，并且能够迁移到其他领域。

训练过程中的动态曲线揭示了更多规律。研究团队记录了训练过程中"全错比例"（即无效题占所有训练题的比例）的变化。在Llama模型上，标准GRPO全程保持在约60%-70%的全错比例，意味着大多数训练题浪费在了无学习信号的无效组上。两个HiLL变体都大幅降低了这一比例，说明提示有效地把许多"全错"题变成了"有对有错"的有效学习素材。而在提示依赖度的曲线上，没有迁移权重的HiLL变体呈现出稳定上升的趋势——随着推理者越来越强，提示者为了继续制造有效信号，开始越来越多地直接给出答案步骤，导致依赖度攀升。有了迁移权重的HiLL则将提示依赖度稳定压在低位，与更高的最终准确率形成了清晰的对应关系。

温度参数T控制着迁移权重对提示依赖度的惩罚力度。T越小，惩罚越重，提示依赖度更低，但可能过度约束提示者，导致有效信号也减少；T越大，惩罚越轻，提示者更自由但依赖度上升。在实验中，T=0.3取得了信号创造和信号迁移之间最好的平衡，但即便是T=0.2或T=0.4，也依然比完全没有迁移权重的版本表现更好，说明这一机制的有效性相当稳健。

六、一点额外的观察：提示的"风格"也在学习

除了上述量化指标，研究团队还做了一个有趣的定性分析：对比HiLL和HiLL w/o TW生成的实际提示内容。

以一道几何题为例，题目要求找一条移动线段上某个交点的轨迹方程。没有迁移权重的版本给出的提示直接定义了参数、写出了点A和点B的坐标形式、以及直线PA和QB的方程该怎么建立，几乎把整个解题框架都搭好了——提示长达108个词，包含大量数学表达式，有提示时的正确率达到38%。有迁移权重的版本则给出了一句话："可以用参数来表达交点，然后消去参数找隐藏的轨迹。"仅18个词，没有具体数学表达式，有提示时正确率只有13%——但这13%的正确解法，在没有提示时也有更大的可能性自发出现。

这个对比清晰展示了迁移权重究竟在塑造什么：它不只是一个数值上的调节旋钮，而是在改变提示者"教学哲学"——从"帮AI做题"转向"给AI指方向"。

计算成本方面，HiLL在Llama模型上每步约需标准GRPO的3.8倍时间，在Qwen模型上约需2.6倍，与同类的SAGE方法（2.3倍）处于同一数量级。由于额外计算只在全错题上触发，随着推理者变强、全错比例下降，开销也会自然降低。研究团队将这视为一个合理的代价权衡：额外时间全部花在了标准GRPO完全无法从中学到任何东西的那些训练样本上，把原本的浪费转化成了有价值的学习信号。

归根结底，HiLL解决的是一个"好学生也有天花板"的问题。当一个AI模型足够强大，能轻松解决大多数题目时，剩下那些真正难的题目反而成了最大的障碍——因为它们产生不了任何学习信号。HiLL给了这些题目一个出口：不是绕开它们，也不是暴力多做几遍，而是训练出一个懂得"怎么给提示"的伙伴，专门针对当前推理者的具体弱点，给出恰到好处的点拨——既能让推理者在这道题上找到方向，又不会让推理者形成依赖，确保学到的东西在考试时真的能用上。

这或许也给人类教育带来一点启发：真正好的教学，不在于把答案告诉学生，而在于找到学生能接住的那个提示，让他们自己走完剩下的路。有兴趣深入了解这项研究所有技术细节的读者，可以通过论文编号arXiv:2604.00698查阅完整论文。

Q&A

Q1：HiLL框架和普通GRPO训练有什么本质区别？

A：标准GRPO在遇到AI全部答错的难题时，完全无法给出学习信号，相当于白做了这道题。HiLL通过训练一个独立的"提示者"AI，专门针对这些难题生成有针对性的提示，把"全错"变成"有对有错"，从而恢复学习信号。更关键的是，HiLL还会评估提示产生的正确答法是否在没有提示时也能复现，避免AI只是靠提示"作弊"通过，而没有真正学到东西。

Q2：提示依赖度（hint reliance）具体是怎么计算的？

A：对于推理者在有提示情况下产生的每个正确解法，分别计算这个解法在"有提示"和"没有提示"两种条件下出现的概率，取对数后相减。差值越接近零，说明这个解法不依赖提示；差值越大，说明这个解法离开提示就很难出现。研究团队还从数学上证明，提示依赖度越低，在有提示时学到的东西就越能迁移到没有提示的测试场景中。

Q3：HiLL框架训练出来的提示者，测试时会用到吗？

A：不会。提示者只在训练阶段参与工作，帮助推理者从难题中获得学习信号。测试时，提示者完全退出，只有推理者独立面对题目。这意味着HiLL带来的能力提升是推理者自身真实能力的提升，而不是靠提示者在测试时"辅助"得来的。实验中所有评测分数都是在没有提示者参与的条件下取得的。

企业官网建设流程全解析

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

热门文章

文章分类

标签云

相关文章

用Matlab手把手教你：如何从GPS轨迹数据里‘猜’出小车的实时速度（附完整代码）

tao-8k在中小企业知识管理中的应用：基于Xinference的轻量RAG实践

Excel文件里藏了‘压缩炸弹’？聊聊Apache POI的MIN_INFLATE_RATIO参数与文件安全那些事儿

需要专业的网站建设服务？