这项由加利福尼亚大学洛杉矶分校(UCLA)人工智能与语言处理团队主导完成的研究,以预印本形式发布于2026年4月,论文编号为arXiv:2604.08539,题为《OpenVLThinkerV2:面向多领域视觉任务的通用多模态推理模型》,感兴趣的读者可通过该编号在arXiv平台查阅完整论文。
如果你曾经被一道数学几何题难住,或者想让AI帮你从一张卫星图上找到某个具体的物体,你大概能体会到:不同的事情对人脑的考验是完全不一样的。做数学需要一步一步推理,找图里的东西则需要你的眼睛足够精准。对AI来说,这两件事同样是两种截然不同的挑战——而如何让一个AI模型同时把这两件事都做好,正是这篇论文想要解决的核心问题。
UCLA的研究团队发现,当前最先进的AI视觉语言模型(也就是那些既能看图又能回答问题的AI,简称MLLM)在训练过程中面临一个深层的"公平性"危机。这个危机不是关于社会公正的,而是关于AI训练机制本身:不同类型的题目给AI提供的"奖励信号"差别极大,导致训练过程严重失衡,就像一场考试里有些科目满分100分、有些科目满分1000分,但老师偏偏直接把所有分数加在一起排名,结果高分科目的学生永远占优势。
为了解决这个问题,研究团队提出了一套名为OpenVLThinkerV2的完整训练方案,其核心发明是一种叫做"高斯GRPO"(简称G?RPO)的全新训练目标,并配套设计了两种辅助机制,最终让AI在18个不同的测试基准上全面超越了包括GPT-4o在内的多个强大对手,甚至在文档理解和空间推理领域打败了GPT-5和Gemini 2.5 Pro。
一、AI训练中的"偏心考官"问题
要理解这篇研究的出发点,先从当前最流行的AI强化学习训练方式说起。研究团队使用的基础框架叫做GRPO(组相对策略优化),这是一种让AI通过"做题、得分、调整"的循环不断进步的训练方法,类似于学生反复刷题、根据对错调整策略的学习过程。
问题在于,不同类型的题目给出的"分数"差异悬殊。做一道数学选择题,AI要么全对要么全错,得分非0即1,这是典型的"稀疏信号"。但如果AI在做视觉定位任务——比如在图片里框出一只猫的位置——它得到的分数是一个连续的数字,表示它框出来的区域和正确答案重叠了多少百分比,这是"密集信号"。还有一些任务,比如识别图片上的文字,给出的分数既不是0/1,也不是完全连续,而是介于两者之间。
标准GRPO的做法是:把同一道题的多个AI回答收集起来,用这些回答的平均分和标准差来"归一化"每个回答的得分,让分数变成一个可比较的相对优势值。但这里有个严重问题:如果这道题的所有回答得分都非常接近(比如0.81、0.81、0.82、0.82、0.83这样密集的分布),那么归一化之后每个答案的"优势值"差异极小,整个训练步骤几乎没有学到任何东西;反之,如果有一个回答偶然得了极高的分,它就会把整个标准差拉高,使得其他所有回答看起来都像在平均水平以下。
后来出现了一种改进版叫做DR.GRPO,它干脆去掉了按组归一化的步骤,直接用原始分数减去平均分。这解决了组内偏差问题,但又引入了任务间的不公平:高方差任务(比如定位任务,分数波动很大)产生的梯度更新幅度远大于低方差任务(比如选择题),导致AI在训练中对某些类型的题目"过度反应",而对另一些题目几乎无动于衷。
更新一代的EMA-GRPO则尝试用历史数据的指数移动平均来估计每种任务的"正常方差",以此调整归一化比例。这个思路更接近正确答案,但它依然依赖线性变换——也就是说,它只能调整分数的平均值和方差,却无法改变分数分布的整体形状。如果某个任务的分数分布本来就是"两极化的"(比如大量0分加上偶尔几个满分),线性调整后依然是两极化,只是换了一个数值范围。一个偶发的"超级高分"依然会在历史记录里长期发酵,持续压制后续正常回答的学习信号。
二、用"正态分布"当裁判:G?RPO的核心思想
研究团队的核心洞察是:与其反复修补线性调整的漏洞,不如彻底换一种归一化机制——用数学上最"公平"、最"稳健"的分布作为所有任务共同的标准,这就是正态分布(也叫高斯分布,就是那个对称的钟形曲线)。
正态分布有几个特别适合用来当"裁判"的性质。首先,它是对称的,这意味着表现比平均水平好的回答和比平均水平差的回答,会得到数值上对称的奖励和惩罚,不存在"鼓励多惩罚少"或相反的偏差。其次,它对极端值有天然的压制:不管某个回答的原始分数高到多离谱,经过映射后都会被限制在一个合理范围内,不会造成梯度爆炸。第三,由于所有任务的优势值都被强制映射到同一个正态分布,每种任务对训练过程的影响力天然相同,不存在哪类任务"声音更大"的问题。
具体的实现方式借用了数学里"最优运输"(Optimal Transport)的概念。你可以把它理解成这样一个场景:AI做了一批题,得到了一堆原始分数,这些分数的分布形状千奇百怪,可能是两极分化的哑铃形,可能是偏向一侧的斜坡形,也可能是有个别极高分的长尾形。G?RPO要做的事,就是找到一种最"省力"的搬运方式,把这些分数的分布形状变成标准正态分布的形状。
在一维空间里,这个"最省力的搬运方案"有一个非常优雅的数学闭合解:只需要三步。第一步,把所有原始分数从低到高排序,计算每个分数的相对排名(比如5个回答里排第3的,它的排名概率就是(3-0.5)/5=0.5)。第二步,把这个排名概率输入正态分布的"反函数"(即分位函数),直接得到它对应的正态分布值。第三步,处理并列的情况:如果多个回答得分完全相同,就给它们分配这几个位置所对应的正态分布值的平均值,确保相同表现得到相同的学习信号。
举一个具体的例子来感受这种变换的效果。假设5个AI回答的原始分数是[0, 0, 0, 0, 1]——四个全错、一个全对,这是典型的稀疏二值奖励。标准GRPO会给最后那个全对的回答一个极其突出的高优势值(因为它远超其他所有人),产生一个"重击"式的梯度更新。而G?RPO则会把这5个回答的优势值映射成大约[-0.9, -0.9, -0.9, -0.9, 1.28],让那个全对的回答依然是正值(得到鼓励),但不会高得离谱,同时让四个全错的回答得到适度的负值惩罚。整个更新过程稳定而有节制。
同样,如果5个回答的原始分数是[0.81, 0.81, 0.82, 0.82, 0.83]——这种几乎没有差别的密集分布,标准GRPO会因为标准差极小而产生微乎其微的优势值,相当于白训练了一步。而G?RPO会把它们映射成[-0.9, -0.9, 0.26, 0.26, 1.28],人为"拉开"了这些本来差异很小的回答之间的区别,让训练依然能从中提取有效信号。
三、训练失衡的另一面:AI在不同题型里的"个性差异"
解决了奖励信号的归一化问题之后,研究团队把目光转向了另一个更细腻的挑战:不同类型的任务不只是奖励信号形态不同,它们还会驱动AI产生截然不同的行为模式。
研究团队在训练过程中仔细观察了AI生成回答的长度变化规律,发现了一个有趣的"性格分裂"现象。对于需要多步推理的任务(比如数学题、科学问答),AI的回答长度会在训练初期先短暂缩短(因为它在适应新的训练环境),然后逐渐回升,最终稳定在一个比起点更长的水平——这符合直觉,越复杂的问题越需要更多的"思考步骤"。
但对于视觉感知型任务(比如图片里的文字识别、物体定位),AI的回答长度则单调下降,越训练越简短。这也合乎道理:定位一个物体不需要长篇大论,直接给出坐标就行,多说反而容易出错。问题在于,在混合训练的环境里,这两种截然相反的趋势会互相干扰:推理任务需要AI"多说话",但感知任务又在训练AI"少说话",两边拉扯之下,AI可能会陷入一种尴尬的中间状态,既没有足够的推理深度,也没有简洁的感知输出。
研究团队的解决方案是"按任务定制响应长度"。具体来说,他们为每种任务设计了一个梯形的奖励区间:如果AI的回答长度落在某个合适的范围内,就得到额外奖励;过短或过长都会被软性惩罚;超过极限则不得分。对于数学推理任务,这个"合适范围"被设置得比较长,鼓励AI展开完整的推理链条;对于视觉定位任务,这个范围则很短,要求AI直接给出答案,不要拖泥带水。通过这种方式,两类任务各自走向适合自己的"最优长度",不再相互干扰。
与响应长度问题伴随出现的,是另一个叫做"熵"的现象。在信息论里,熵衡量的是系统的不确定性或随机程度。对AI生成文本来说,高熵意味着AI在生成每个词的时候选项很多、很不确定,输出内容更随机;低熵则意味着AI非常笃定地选择了某几个高概率的词,输出内容高度固定。
研究团队发现,在强化学习训练过程中,不同任务会驱使AI的熵向两个方向极端漂移。推理型任务容易引发"熵爆炸":AI为了探索更多可能的推理路径,开始越来越随机地生成词语,最终输出一些语义混乱、词不达意的文本。感知型任务则容易引发"熵坍缩":AI过于自信地反复使用同几个高概率词语,停止探索,回答变得机械且缺乏灵活性。最极端的情况出现在空间推理这类既复杂又超出AI训练分布的任务上,AI的熵会飙升到极高的水平,几乎等同于随机输出。
应对这一问题的机制叫做"任务级熵塑形":为每种任务设置一个允许的熵值区间,当AI的熵超过上限时增加一个惩罚项把它往下拉,当熵低于下限时增加一个惩罚项把它往上推,始终把AI的"探索强度"维持在一个合理的范围内。这个机制不改变任务本身的奖励结构,只是在旁边加了一道"防护栏",确保AI不会因为某类任务的特殊性质而训练失控。
四、实验结果:在18个测试上打败了谁
研究团队基于Qwen3-VL-Instruct-8B这个已有的视觉语言模型作为起点,使用OneThinker-600k数据集的筛选子集进行了强化学习训练,整个训练过程在AWS的Trainium专用芯片上运行了大约三天。最终得到的OpenVLThinkerV2在18个涵盖六大类任务的测试基准上接受了全面评测。
在通用多模态问答方向,OpenVLThinkerV2在MMMU基准上达到了71.6%的准确率,在MMBench上达到88.2%,在MMStar上达到73.8%。相比之下,GPT-4o在MMMU上只有70.7%,OpenVLThinkerV2对其实现了超越。与此同时,它的基础模型Qwen3-VL-Instruct在MMMU上只有60.2%,相对提升幅度接近19%,这个进步幅度是相当显著的。
数学视觉推理是近年来AI能力竞赛的热门赛场。OpenVLThinkerV2在MathVista上达到79.5%,在MathVerse上达到65.8%,在MathVision上达到53.4%,均超过了同类开源模型中的佼佼者,包括最近颇受关注的OneThinker-8B(MathVista上得77.6%)。
图表理解方面,OpenVLThinkerV2在ChartQA上达到87.4%,超过了Gemini 2.5 Pro的83.3%,在CharXiv(推理类问题)上达到53.0%,同样高于Gemini 2.5 Pro的47.1%。
文档理解是AI视觉能力的重要组成部分,包括从扫描文件、表单、信息图中提取信息。OpenVLThinkerV2在DocVQA上达到96.7%,在OCRBench上达到911分,在InfoVQA上达到86.4%。其中OCRBench的911分超过了DeepEyesV2的882分——后者是一个专门针对文档解析设计的模型,甚至内置了动态放大缩小的"zoom-in"工具来提升文字识别精度。同时,911分也远高于GPT-5(810分)和Gemini 2.5 Pro(866分)。
空间推理测试的是AI理解三维空间关系、方向、距离等概念的能力,这对机器人、自动驾驶等应用至关重要。OpenVLThinkerV2在EmbSpatial基准上达到83.1%,超过GPT-5(82.9%);在RefSpatial上达到44.6%,在RoboSpatial上达到63.2%,均超过Gemini 2.5 Pro(分别为36.5%和47.5%)。值得一提的是,空间推理领域有一个专门针对机器人任务微调的专家模型RoboRefer-8B-SFT,在RefSpatial上的得分是48.4%,比OpenVLThinkerV2高一些。但OpenVLThinkerV2并没有专门在这类数据上微调过,能接近专家模型的表现已经相当不错。
视觉定位(Grounding)测试AI能否准确在图片中框出特定对象的位置,通常用IoU(交并比)衡量框的准确程度。OpenVLThinkerV2在RefCOCO上达到93.4%,在RefCOCO+上达到88.2%,在RefCOCOg上达到90.4%,全面超越了Grounding DINO(90.6%、88.2%、86.1%)——后者是这个领域长期以来的专用模型标杆。
五、消融实验:每个组件各贡献了多少
研究团队还专门做了"拆分测试",逐个开关各个训练组件,来单独衡量每个创新点的贡献大小。基础的Qwen3-VL-Instruct模型在六大类任务的综合得分分别是:通用问答71.3、数学59.2、图表69.9、定位87.1、文档理解86.8、空间推理60.9。
仅加入G?RPO这一个改变,六项分数就跃升至76.9、64.8、74.5、90.2、90.6、62.3,每项都有显著提升,这证明奖励分布归一化机制是所有改进中最核心的一步,好比在一场混乱的考试中终于引入了公平的评分标准。
在G?RPO基础上进一步加入熵塑形机制,六项得分变为77.0、65.1、75.3、90.4、90.8、62.8,推理类任务(数学、图表)的提升更为明显,而定位和空间推理这类视觉密集型任务的提升相对较小——这与理论预测一致,因为熵控制对于容易发生"探索失控"的推理任务效果更显著。
将熵塑形替换为响应长度塑形,得分变为77.4、65.7、75.4、90.5、91.1、63.2,可以看到长度塑形对定位和文档理解的提升比熵塑形更大,这是因为控制输出长度直接影响了感知型任务的准确性——短而精的回答减少了AI在视觉任务中"想太多"而产生幻觉的概率。最终把熵塑形和长度塑形两者都加上,六项得分达到最优的77.9、66.2、76.0、90.7、91.4、63.6,两种机制的效果是互补而非重叠的。
六、训练过程中的稳定性对比
研究团队还记录了G?RPO、标准GRPO和GDPO在整个训练过程中四类奖励指标的变化曲线,提供了更直观的稳定性对比。
在准确率奖励方面,三种方法在训练开始时表现接近,但大约到100步之后,G?RPO的准确率曲线开始稳定攀升,最终停留在约0.70-0.71的水平;而GRPO在0.685到0.695之间来回震荡,没有明显的进步趋势;GDPO甚至在250步附近出现了一次明显下跌,说明训练过程的稳定性不如G?RPO。
长度奖励的对比更加直观:G?RPO全程保持最高的长度奖励,最终超过0.50;GRPO和GDPO则停留在更低的水平,且波动更大。这说明G?RPO的响应长度塑形机制确实引导AI找到了"最优的回答长度区间",而对照组的训练则没能做到这一点。
格式奖励(要求AI用固定的思考标签和答案标签包裹输出)和结构奖励(要求特定任务如定位用规定格式输出坐标)上,GDPO在训练初期表现最好,但随着训练推进,它的格式和结构奖励逐渐下滑;G?RPO则持续稳定,最终在两项指标上都保持最优。
说到底,这项研究的意义在于它重新思考了一个在AI训练中一直被忽视的问题:当你同时教一个学生做数学题、认字、看地图、理解图表,用同一把尺子衡量所有进步是公平的吗?研究团队用数学工具给出了一个清晰的答案——不公平,而且这种不公平会深刻影响最终的学习效果。他们提出的解决方案并不复杂,核心思想可以用一句话概括:不管原来的分数长什么形状,最终都把它变成同一种最稳定的分布,让所有任务在训练中享有平等的话语权。配合上针对不同任务特点定制的"回答长度"和"探索强度"控制机制,最终训练出了一个在众多任务上表现均衡、且在多项指标上超越更大规模专有模型的开源系统。
对普通人来说,这项研究的直接意义在于:未来你使用的AI助手,无论你是让它帮你解一道物理题、识别一张收据上的金额、还是告诉你一张室内照片里沙发在哪里,它都有更大的概率给出准确答案——因为训练它的方式更加公平,没有让它偏科。对研究者来说,G?RPO提供的这种基于最优运输的归一化框架,原则上适用于任何需要混合多种差异悬殊的奖励信号的强化学习场景,不限于视觉语言模型,在代码生成、GUI操作等领域同样可能有用。有兴趣深入了解技术细节的读者,可以通过arXiv编号2604.08539找到完整论文,其中附录B还提供了G?RPO完整的梯度推导过程,对于希望复现或改进这套方法的研究者来说是很好的参考材料。
Q&A
Q1:G?RPO和普通GRPO的最大区别是什么?
A:普通GRPO用线性的均值方差归一化来计算AI回答的"优势值",这在不同任务的奖励分布差异很大时会造成严重的训练不平衡。G?RPO则用最优运输方法,把任何形状的奖励分布强制映射成标准正态分布,让每种任务对训练过程的影响力保持一致,同时天然压制了极端异常值对训练的冲击。
Q2:OpenVLThinkerV2在哪些任务上超过了GPT-5和Gemini 2.5 Pro?
A:OpenVLThinkerV2在文档理解(DocVQA得96.7%、OCRBench得911分、InfoVQA得86.4%)和空间推理(EmbSpatial得83.1%,超过GPT-5的82.9%;RoboSpatial得63.2%,超过Gemini 2.5 Pro的47.5%)这两大类别上显著超越了两个大型专有模型,同时在图表理解的ChartQA上也超过了Gemini 2.5 Pro。
Q3:响应长度塑形和熵塑形分别解决了什么问题?
A:响应长度塑形解决的是不同类型任务对回答长度需求截然相反的问题——推理任务需要长回答、感知任务需要短回答,通过给每种任务设置专属的"最优长度区间",让两类任务各自找到最适合的输出习惯。熵塑形解决的是训练过程中AI"探索程度"失控的问题,防止推理任务引发随机性爆炸(熵爆炸)或感知任务导致过度保守(熵坍缩)。两者配合使用效果优于单独使用任意一种。