这项研究由腾讯混元、马里兰大学帕克分校、弗吉尼亚大学以及北卡罗来纳大学教堂山分校的研究团队共同完成,论文以预印本形式发布于2026年5月,编号为arXiv:2605.09262,有兴趣深入了解的读者可通过该编号查询完整论文。

**一、当AI遇到"近视":一个几乎被忽视的大问题**

手机拍出的糊照片、扫描得坑坑洼洼的试卷、网速差时被压缩得面目全非的图片——这些日常场景对人来说顶多让眼睛费力一点,但对于如今风头正劲的多模态大语言模型(也就是那些既能看图又能回答问题的AI)来说,却可能是致命的考验。

所谓多模态大语言模型,可以把它理解成一个既会看图、又会思考、还会说话的"全能学生"。给它一张清晰的数学题截图,它能条分缕析地把答案算出来;给它一张图表,它能解读其中的趋势和规律。近年来,研究人员用"强化学习"的方法大幅提升了这类模型的推理能力——强化学习大致上就是通过反复做题、对了给奖励、错了受惩罚,让模型越来越会解题。

然而,这个"全能学生"有一个隐藏弱点:它的优秀成绩几乎都建立在"清晰、完整的试题"这一前提之上。一旦试卷被水浸湿、被复印机糟蹋、被手抖拍糊,它的成绩就会断崖式下跌,甚至开始胡言乱语。这就好比一个在安静考场里考满分的学生,一到嘈杂环境里就完全不会做题了。

研究团队把这个问题摆上了台面,并提出了一个名叫ROMA的训练框架来解决它。ROMA的名字来自"RObust MultimodAl reasoning"(鲁棒多模态推理)的缩写,核心思想是:在训练AI的过程中,让它学会在图片质量变差时依然保持逻辑清晰、答题准确。

**二、问题究竟有多严重:从"看清"到"看不清"的断层**

为了让读者对问题的严重程度有直观感受,不妨看一组数字。研究团队用一种叫做GRPO的标准强化学习方法训练了一个8B规模(约80亿参数)的多模态模型,在七个权威测试集上进行了测试。

在图片清晰的情况下,这个模型的平均得分是68.9分(满分100分),表现相当不错。但一旦图片受到"已知类型"的污染——比如加上噪点、变模糊、压缩画质、降低分辨率——分数就跌到了59.2分,足足下降了将近10分。更糟糕的是,如果遇到训练时完全没见过的图片破坏方式——比如运动模糊、像素化、椒盐噪声——分数更是跌到了54.0分,比清晰图片状态低了将近15分。

这种现象背后有一个形象的比喻:这就好比一个学生考前认真准备了"清晰讲义版"的题目,但考试当天发现试卷全是复印了七八次的模糊版本,顿时慌了神,甚至开始瞎猜答案。而且这个学生不只是不确定、在空白处写"看不清",而是信心十足地写下了错误答案——这种"满怀自信地犯错",在AI领域有个专有名词叫"幻觉"(hallucination)。

这正是研究团队需要解决的核心问题:如何让模型在图片质量下降时,不仅成绩不要掉太多,还要避免因为"看不清"而开始编造答案、扰乱整个推理过程。

**三、为什么"简单粗暴"的老方法在这里行不通**

在计算机视觉和传统强化学习领域,提升模型对图片扭曲的抵抗力有一个经典思路:在训练时就把各种污染过的图片喂给模型,让它见过足够多的"坏图片",自然就学会了应对。这就像让运动员在各种恶劣天气下练习,下雨天比赛时就不会手忙脚乱。

然而,这个思路直接用在多模态大语言模型的强化学习训练上,却会引发一个严重问题,研究团队把它叫做"奖励中毒"(reward poisoning)。

强化学习的训练逻辑是:模型生成一段推理过程,然后系统判断答案对不对,对了就给正奖励、错了就给负惩罚,模型从中学习什么样的推理方式是好的。问题在于,如果直接让模型面对模糊图片来生成推理过程,它往往因为"看不清"而产生幻觉,编出一堆错误的推理步骤,最终答错。系统于是给了负惩罚。

但这个负惩罚信号是非常有误导性的——模型并不知道自己是因为"推理方式不对"还是因为"图片太模糊看不清楚"而被惩罚。长此以往,模型在污染图片上的训练信号充满噪音,不仅没能学会鲁棒推理,反而可能让原本在清晰图片上运行良好的推理能力也被破坏掉,出现"政策崩溃"(policy collapse)——也就是模型彻底学乱了,什么问题都答不好。

此外还有另一个障碍:现代多模态大模型的强化学习训练普遍采用"无评论家"架构(如GRPO算法),不依赖传统的价值网络来评估每个中间步骤的好坏。而传统视觉鲁棒性研究中很多有效方法,恰恰依赖这种价值网络,因此在这里根本用不上。

面对这两道墙,研究团队设计出了ROMA这套全新的训练框架。

**四、ROMA的核心设计:用"替身演练"绕开陷阱**

ROMA的精妙之处在于它重新设计了训练时的"信息流动"方式,而不是简单地往训练数据里塞更多坏图片。

整套方法的核心是一个"双通道前向传播"策略。可以用一个考试培训的比喻来理解:教练(也就是训练系统)每次出题时,先给学生看一道清晰印刷的题目,让学生正常作答、写出完整的推理过程,并判断答案对不对、得多少分。这一步完全和以前一样,保证了奖励信号的可靠性。

关键在于接下来的一步:教练把这道题的图片"故意损坏",制作出若干个污染版本(比如模糊版、噪点版、压缩版),然后把同一套推理步骤"强行念给学生听"(这就是"教师强制"技术,teacher forcing——系统不让模型重新生成答案,而是把之前生成的推理过程原封不动地展示出来),同时观察:模型在看到损坏版图片时,对这些推理步骤的"认可程度"是否发生了变化。

这样做的妙处是:模型从来不需要在污染图片上"从头作答",因此不会产生幻觉,也不会污染奖励信号。但与此同时,系统可以精确地测量出:当图片质量变差时,模型的思维是否出现了动摇。

在这个基础框架上,ROMA叠加了三个相互配合的训练目标。

第一个叫做"词元级别的KL惩罚"。KL散度是一种衡量两个概率分布差异程度的数学工具,可以理解为"两个版本的模型在同一道推理步骤上有多不一致"。具体而言,对于推理轨迹中的每一个输出词(token),系统都会比较"看清晰图片时模型的判断"和"看污染图片时模型的判断"之间的差距。如果差距太大,就施加惩罚,迫使模型学会:即使图片变差了,对这个推理步骤的判断也不应该大幅改变。

而且这个惩罚不是平均地施加在所有污染版本上,而是只针对"最难的那个版本"——也就是让模型最困惑、判断偏离最大的那种污染方式。研究团队把这叫做"最坏情况多视角优化"(worst-case multi-view optimization)。道理也直接:只针对最简单的污染练习,学生可能学会了应对轻度干扰,但遇到真正严重的污染还是崩溃;只有专门盯着最难的情形反复磨练,才能真正建立全面的抵抗力。

第二个叫做"辅助策略梯度损失"(auxiliary policy gradient loss)。光有上述的KL惩罚还不够,因为它只是在说"你在污染图片下的判断不能和清晰图片下差太多",但没有告诉模型"你到底应该怎么答"。如果只有约束没有引导,模型可能陷入一种奇怪的状态:为了减少差异而让自己在两种情况下都变得一样糟糕。为了提供积极的学习信号,研究团队引入了一个额外目标:在一个随机选择的污染版图片上,用原来清晰图片推导出的"优势值"(即这道题答对了能获得多少奖励)来引导模型更新。也就是说,模型要学会:即使看的是模糊图片,也要朝着"在清晰图片上能答对"的方向去努力。

第三个叫做"正确性条件约束"(correctness-conditioned regularization)。这是一个非常关键的保护机制:上述的KL惩罚只在原本清晰图片答对的推理轨迹上才会生效。道理很简单——如果模型在清晰图片上就答错了、推理过程本身就是错的,那么强迫它在污染图片上也保持和这个错误过程一致,等于是在强化错误。只有当推理轨迹本身是正确的,才有必要、也才值得保护它在图片质量下降时的稳定性。

这三个机制合在一起,构成了ROMA的最终训练目标:既要在清晰图片上答好题(主强化学习目标),又要在污染图片上也能正确推理(辅助策略梯度),还要在清晰与污染之间保持认知一致(KL惩罚),而且这种一致性只施加在真正答对的推理过程上(正确性条件)。

**五、实验数据:成绩单上的真实表现**

研究团队用两个规模的模型进行了验证:Qwen3-VL-4B(约40亿参数)和Qwen3-VL-8B(约80亿参数)。这两个模型是腾讯推出的高性能多模态推理基础模型,本身已经具备相当强的视觉推理能力。

训练数据使用了MMRL30k数据集,约包含3万条多模态推理样本。评估则在七个公认的多模态推理测试集上展开,涵盖了数学题解答(MathVista、WeMath)、图表理解(ChartQA)、逻辑推理(LogicVista)、综合视觉问答(MMStar、VisualPuzzles)和真实世界场景问答(RealWorldQA)这几大类型,可谓覆盖面相当广泛。

污染方式分为两类:训练时见过的(高斯噪声、高斯模糊、JPEG压缩、分辨率降低)和训练时完全没见过的(运动模糊、椒盐噪声、斑点噪声、色调分离、像素化)。而且在主要结果展示中,测试用的污染程度是"第3级"——比训练时用的参数范围还要严重,专门考验模型在极端情况下的泛化能力。

8B模型上,标准GRPO在清晰图片下得了68.9分;加上ROMA训练之后,清晰图片下得了68.7分——几乎一样,说明ROMA没有以牺牲正常表现为代价。但在见过的污染类型下,GRPO得59.2分,ROMA得61.6分,提升了2.4个百分点。在完全没见过的污染类型下,GRPO得54.0分,ROMA得56.3分,提升了2.3个百分点。

如果把不同污染强度下的成绩连成一条曲线,可以看到:随着污染从轻度到中度到严重,三条曲线(基础模型、GRPO、ROMA)都在下降,但ROMA的曲线始终位于最上方,且下降幅度最小。GRPO从清晰到严重污染下降了14.9个百分点,而ROMA只下降了12.4个百分点。

4B模型上的规律同样一致:在见过的污染下,ROMA比GRPO高出1.7个百分点;在没见过的污染下,高出1.3个百分点,同时清晰图片下的性能几乎相同。

研究团队还与其他几个同类研究的7B规模模型进行了横向比较,包括NoisyRollout-7B、PAPO-7B、VL-Rethinker-7B、Vision-R1-7B和OpenVLThinker-7B。在清晰图片下,ROMA的8B模型(68.7分)明显优于所有对比模型(最高为64.0分)。在污染图片下,ROMA同样保持领先,见过污染下61.6分远超NoisyRollout的54.9分和PAPO的55.4分;没见过污染下56.3分也高于NoisyRollout的50.1分和PAPO的50.7分。

**六、拆开看:每个设计决策究竟贡献了多少**

研究团队通过一系列消融实验,逐一验证了ROMA中每个设计模块的价值。

关于最坏情况优化:如果把"只惩罚最难的那个污染版本"改成"对所有污染版本的惩罚取平均",在见过污染下成绩从61.6分降到60.0分,在没见过污染下从56.3分降到54.5分。这证明了"专盯最难情形"的策略确实比"平均对待"更有效,符合直觉——练习时如果总是挑简单的做,遇到真正的挑战就会失手。

关于辅助策略梯度:如果把这个"积极引导"组件去掉,只保留KL惩罚,见过污染下从61.6分降到60.5分,没见过污染下从56.3分降到55.4分。这印证了研究团队的判断:单纯的约束("你不能和清晰版差太多")如果没有引导("你应该往正确答案的方向走"),效果是有限的。

关于正确性条件约束:如果把这个保护机制去掉,让KL惩罚无差别地施加在所有推理轨迹上——包括那些本来就答错的轨迹——见过污染下从61.6分跌到59.4分,没见过污染下从56.3分跌到54.1分,降幅超过两个百分点。这是三个消融实验里影响最大的一个,说明"不强迫模型对错误保持一致"这个保护机制不可或缺。

此外,研究团队还系统地测试了关键超参数的敏感性。污染视角的数量K从1增到3时成绩持续提升,但增到4时略有下降,因此选定K=3为默认值。辅助梯度系数α和KL惩罚系数β都在0.10时达到最佳,太小则力度不足,太大则过度约束反而干扰了主要学习目标。

**七、从成绩单到具体题型:逐类拆解**

研究团队还在附录中提供了每种污染方式下每个测试集的详细分数。以8B模型的见过污染测试为例,高斯模糊对ChartQA的冲击最大:基础模型从79.4分跌到14.6分,GRPO从81.5分跌到15.8分,而ROMA从80.8分跌到16.9分——虽然三者在模糊图片下的ChartQA成绩都很低,但ROMA的绝对分数依然是三者中最高的。

这背后有个深层原因:ChartQA测试的是图表理解能力,而图表中的细节(坐标轴数字、图例文字)在高斯模糊下几乎完全无法辨认,所有模型都受到了极大冲击。即便如此,ROMA通过更稳健的推理过程,依然能多保留一点点有效信息,转化为更高的得分。

相比之下,在噪声类型的污染(如高斯噪声、椒盐噪声)上,三个模型的成绩差异相对较小,但ROMA依然保持了一致的优势,尤其在WeMath(数学推理)和LogicVista(逻辑推理)这类需要深度思考的测试集上,ROMA的提升幅度更为明显,说明稳定的推理过程对复杂任务的帮助更大。

**八、说到底,这意味着什么**

归根结底,ROMA解决的是一个非常实际的问题:当我们把AI部署到真实世界里,图片不总是完美的。手机拍糊了、网络传输压缩了、打印机坏了、扫描仪灰尘多了——这些日常场景下产生的"坏图片",是AI必须面对的常态,而不是例外。

过去的研究大多在"AI能不能推理"上下功夫,ROMA则把目光投向了"AI的推理能不能扛得住视觉干扰"。这两个问题同样重要,缺一不可。一个在实验室里无比聪明、一到现实就出错的AI,实用价值是大打折扣的。

从技术层面看,ROMA的贡献在于优雅地绕开了"奖励中毒"这个看似无解的困境,用双通道设计将"让模型接触坏图片"和"保持奖励信号可靠"这两件本来矛盾的事情同时实现。这种思路本身也可能对其他类似的训练难题有参考价值。

当然,研究团队也坦诚地指出了未来可以继续探索的方向:将这套框架延伸到视频推理(视频本质上是连续的多帧图片,也面临类似的质量波动问题);研究如何让系统根据图片污染的严重程度自动调整惩罚力度,而不是对所有情况用同样强度的约束。

如果你对多模态AI的鲁棒性研究有兴趣,可以通过编号arXiv:2605.09262找到这篇论文的完整版本,里面包含了更详尽的实验数据和技术细节。

Q&A

Q1:ROMA框架是什么?

A:ROMA是腾讯混元等机构提出的一种强化学习训练框架,全称是"鲁棒多模态推理"框架。它通过双通道前向传播、词元级KL惩罚、辅助策略梯度损失和正确性条件约束四个机制,让多模态AI模型在面对模糊、噪声、压缩等低质量图片时依然能保持准确的推理能力,同时不损失在清晰图片上的正常表现。

Q2:什么是"奖励中毒"问题?

A:奖励中毒是指在强化学习训练中,直接让AI模型对污染图片生成推理答案时,因为图片太模糊或噪声太多,模型会产生幻觉(编造错误推理),系统给出负惩罚,但这个惩罚无法区分"推理错了"还是"图片看不清",导致训练信号充满误导,反而破坏模型原有的推理能力。ROMA通过不在污染图片上生成新答案来彻底规避这个问题。

Q3:ROMA在实验中比普通GRPO强化学习提升了多少?

A:在80亿参数的Qwen3-VL模型上,ROMA在见过的污染类型下比标准GRPO提升了2.4个百分点(61.6% vs 59.2%),在完全没见过的污染类型下提升了2.3个百分点(56.3% vs 54.0%),同时在清晰图片上的成绩几乎持平(68.7% vs 68.9%)。