腾讯混元与马里兰大学：让AI视觉模型"看清"模糊图片也能答对题

这项研究由腾讯混元、马里兰大学帕克分校、弗吉尼亚大学以及北卡罗来纳大学教堂山分校的研究团队共同完成，论文以预印本形式发布于2026年5月，编号为arXiv:2605.09262，有兴趣深入了解的读者可通过该编号查询完整论文。

**一、当AI遇到"近视"：一个几乎被忽视的大问题**

手机拍出的糊照片、扫描得坑坑洼洼的试卷、网速差时被压缩得面目全非的图片——这些日常场景对人来说顶多让眼睛费力一点，但对于如今风头正劲的多模态大语言模型（也就是那些既能看图又能回答问题的AI）来说，却可能是致命的考验。

所谓多模态大语言模型，可以把它理解成一个既会看图、又会思考、还会说话的"全能学生"。给它一张清晰的数学题截图，它能条分缕析地把答案算出来；给它一张图表，它能解读其中的趋势和规律。近年来，研究人员用"强化学习"的方法大幅提升了这类模型的推理能力——强化学习大致上就是通过反复做题、对了给奖励、错了受惩罚，让模型越来越会解题。

然而，这个"全能学生"有一个隐藏弱点：它的优秀成绩几乎都建立在"清晰、完整的试题"这一前提之上。一旦试卷被水浸湿、被复印机糟蹋、被手抖拍糊，它的成绩就会断崖式下跌，甚至开始胡言乱语。这就好比一个在安静考场里考满分的学生，一到嘈杂环境里就完全不会做题了。

研究团队把这个问题摆上了台面，并提出了一个名叫ROMA的训练框架来解决它。ROMA的名字来自"RObust MultimodAl reasoning"（鲁棒多模态推理）的缩写，核心思想是：在训练AI的过程中，让它学会在图片质量变差时依然保持逻辑清晰、答题准确。

**二、问题究竟有多严重：从"看清"到"看不清"的断层**

为了让读者对问题的严重程度有直观感受，不妨看一组数字。研究团队用一种叫做GRPO的标准强化学习方法训练了一个8B规模（约80亿参数）的多模态模型，在七个权威测试集上进行了测试。

在图片清晰的情况下，这个模型的平均得分是68.9分（满分100分），表现相当不错。但一旦图片受到"已知类型"的污染——比如加上噪点、变模糊、压缩画质、降低分辨率——分数就跌到了59.2分，足足下降了将近10分。更糟糕的是，如果遇到训练时完全没见过的图片破坏方式——比如运动模糊、像素化、椒盐噪声——分数更是跌到了54.0分，比清晰图片状态低了将近15分。

这种现象背后有一个形象的比喻：这就好比一个学生考前认真准备了"清晰讲义版"的题目，但考试当天发现试卷全是复印了七八次的模糊版本，顿时慌了神，甚至开始瞎猜答案。而且这个学生不只是不确定、在空白处写"看不清"，而是信心十足地写下了错误答案——这种"满怀自信地犯错"，在AI领域有个专有名词叫"幻觉"（hallucination）。

这正是研究团队需要解决的核心问题：如何让模型在图片质量下降时，不仅成绩不要掉太多，还要避免因为"看不清"而开始编造答案、扰乱整个推理过程。

**三、为什么"简单粗暴"的老方法在这里行不通**

在计算机视觉和传统强化学习领域，提升模型对图片扭曲的抵抗力有一个经典思路：在训练时就把各种污染过的图片喂给模型，让它见过足够多的"坏图片"，自然就学会了应对。这就像让运动员在各种恶劣天气下练习，下雨天比赛时就不会手忙脚乱。

然而，这个思路直接用在多模态大语言模型的强化学习训练上，却会引发一个严重问题，研究团队把它叫做"奖励中毒"（reward poisoning）。

强化学习的训练逻辑是：模型生成一段推理过程，然后系统判断答案对不对，对了就给正奖励、错了就给负惩罚，模型从中学习什么样的推理方式是好的。问题在于，如果直接让模型面对模糊图片来生成推理过程，它往往因为"看不清"而产生幻觉，编出一堆错误的推理步骤，最终答错。系统于是给了负惩罚。

但这个负惩罚信号是非常有误导性的——模型并不知道自己是因为"推理方式不对"还是因为"图片太模糊看不清楚"而被惩罚。长此以往，模型在污染图片上的训练信号充满噪音，不仅没能学会鲁棒推理，反而可能让原本在清晰图片上运行良好的推理能力也被破坏掉，出现"政策崩溃"（policy collapse）——也就是模型彻底学乱了，什么问题都答不好。

此外还有另一个障碍：现代多模态大模型的强化学习训练普遍采用"无评论家"架构（如GRPO算法），不依赖传统的价值网络来评估每个中间步骤的好坏。而传统视觉鲁棒性研究中很多有效方法，恰恰依赖这种价值网络，因此在这里根本用不上。

面对这两道墙，研究团队设计出了ROMA这套全新的训练框架。

**四、ROMA的核心设计：用"替身演练"绕开陷阱**

ROMA的精妙之处在于它重新设计了训练时的"信息流动"方式，而不是简单地往训练数据里塞更多坏图片。

整套方法的核心是一个"双通道前向传播"策略。可以用一个考试培训的比喻来理解：教练（也就是训练系统）每次出题时，先给学生看一道清晰印刷的题目，让学生正常作答、写出完整的推理过程，并判断答案对不对、得多少分。这一步完全和以前一样，保证了奖励信号的可靠性。

关键在于接下来的一步：教练把这道题的图片"故意损坏"，制作出若干个污染版本（比如模糊版、噪点版、压缩版），然后把同一套推理步骤"强行念给学生听"（这就是"教师强制"技术，teacher forcing——系统不让模型重新生成答案，而是把之前生成的推理过程原封不动地展示出来），同时观察：模型在看到损坏版图片时，对这些推理步骤的"认可程度"是否发生了变化。

这样做的妙处是：模型从来不需要在污染图片上"从头作答"，因此不会产生幻觉，也不会污染奖励信号。但与此同时，系统可以精确地测量出：当图片质量变差时，模型的思维是否出现了动摇。

在这个基础框架上，ROMA叠加了三个相互配合的训练目标。

第一个叫做"词元级别的KL惩罚"。KL散度是一种衡量两个概率分布差异程度的数学工具，可以理解为"两个版本的模型在同一道推理步骤上有多不一致"。具体而言，对于推理轨迹中的每一个输出词（token），系统都会比较"看清晰图片时模型的判断"和"看污染图片时模型的判断"之间的差距。如果差距太大，就施加惩罚，迫使模型学会：即使图片变差了，对这个推理步骤的判断也不应该大幅改变。

而且这个惩罚不是平均地施加在所有污染版本上，而是只针对"最难的那个版本"——也就是让模型最困惑、判断偏离最大的那种污染方式。研究团队把这叫做"最坏情况多视角优化"（worst-case multi-view optimization）。道理也直接：只针对最简单的污染练习，学生可能学会了应对轻度干扰，但遇到真正严重的污染还是崩溃；只有专门盯着最难的情形反复磨练，才能真正建立全面的抵抗力。

第二个叫做"辅助策略梯度损失"（auxiliary policy gradient loss）。光有上述的KL惩罚还不够，因为它只是在说"你在污染图片下的判断不能和清晰图片下差太多"，但没有告诉模型"你到底应该怎么答"。如果只有约束没有引导，模型可能陷入一种奇怪的状态：为了减少差异而让自己在两种情况下都变得一样糟糕。为了提供积极的学习信号，研究团队引入了一个额外目标：在一个随机选择的污染版图片上，用原来清晰图片推导出的"优势值"（即这道题答对了能获得多少奖励）来引导模型更新。也就是说，模型要学会：即使看的是模糊图片，也要朝着"在清晰图片上能答对"的方向去努力。

第三个叫做"正确性条件约束"（correctness-conditioned regularization）。这是一个非常关键的保护机制：上述的KL惩罚只在原本清晰图片答对的推理轨迹上才会生效。道理很简单——如果模型在清晰图片上就答错了、推理过程本身就是错的，那么强迫它在污染图片上也保持和这个错误过程一致，等于是在强化错误。只有当推理轨迹本身是正确的，才有必要、也才值得保护它在图片质量下降时的稳定性。

这三个机制合在一起，构成了ROMA的最终训练目标：既要在清晰图片上答好题（主强化学习目标），又要在污染图片上也能正确推理（辅助策略梯度），还要在清晰与污染之间保持认知一致（KL惩罚），而且这种一致性只施加在真正答对的推理过程上（正确性条件）。

**五、实验数据：成绩单上的真实表现**

研究团队用两个规模的模型进行了验证：Qwen3-VL-4B（约40亿参数）和Qwen3-VL-8B（约80亿参数）。这两个模型是腾讯推出的高性能多模态推理基础模型，本身已经具备相当强的视觉推理能力。

训练数据使用了MMRL30k数据集，约包含3万条多模态推理样本。评估则在七个公认的多模态推理测试集上展开，涵盖了数学题解答（MathVista、WeMath）、图表理解（ChartQA）、逻辑推理（LogicVista）、综合视觉问答（MMStar、VisualPuzzles）和真实世界场景问答（RealWorldQA）这几大类型，可谓覆盖面相当广泛。

污染方式分为两类：训练时见过的（高斯噪声、高斯模糊、JPEG压缩、分辨率降低）和训练时完全没见过的（运动模糊、椒盐噪声、斑点噪声、色调分离、像素化）。而且在主要结果展示中，测试用的污染程度是"第3级"——比训练时用的参数范围还要严重，专门考验模型在极端情况下的泛化能力。

8B模型上，标准GRPO在清晰图片下得了68.9分；加上ROMA训练之后，清晰图片下得了68.7分——几乎一样，说明ROMA没有以牺牲正常表现为代价。但在见过的污染类型下，GRPO得59.2分，ROMA得61.6分，提升了2.4个百分点。在完全没见过的污染类型下，GRPO得54.0分，ROMA得56.3分，提升了2.3个百分点。

如果把不同污染强度下的成绩连成一条曲线，可以看到：随着污染从轻度到中度到严重，三条曲线（基础模型、GRPO、ROMA）都在下降，但ROMA的曲线始终位于最上方，且下降幅度最小。GRPO从清晰到严重污染下降了14.9个百分点，而ROMA只下降了12.4个百分点。

4B模型上的规律同样一致：在见过的污染下，ROMA比GRPO高出1.7个百分点；在没见过的污染下，高出1.3个百分点，同时清晰图片下的性能几乎相同。

研究团队还与其他几个同类研究的7B规模模型进行了横向比较，包括NoisyRollout-7B、PAPO-7B、VL-Rethinker-7B、Vision-R1-7B和OpenVLThinker-7B。在清晰图片下，ROMA的8B模型（68.7分）明显优于所有对比模型（最高为64.0分）。在污染图片下，ROMA同样保持领先，见过污染下61.6分远超NoisyRollout的54.9分和PAPO的55.4分；没见过污染下56.3分也高于NoisyRollout的50.1分和PAPO的50.7分。

**六、拆开看：每个设计决策究竟贡献了多少**

研究团队通过一系列消融实验，逐一验证了ROMA中每个设计模块的价值。

关于最坏情况优化：如果把"只惩罚最难的那个污染版本"改成"对所有污染版本的惩罚取平均"，在见过污染下成绩从61.6分降到60.0分，在没见过污染下从56.3分降到54.5分。这证明了"专盯最难情形"的策略确实比"平均对待"更有效，符合直觉——练习时如果总是挑简单的做，遇到真正的挑战就会失手。

关于辅助策略梯度：如果把这个"积极引导"组件去掉，只保留KL惩罚，见过污染下从61.6分降到60.5分，没见过污染下从56.3分降到55.4分。这印证了研究团队的判断：单纯的约束（"你不能和清晰版差太多"）如果没有引导（"你应该往正确答案的方向走"），效果是有限的。

关于正确性条件约束：如果把这个保护机制去掉，让KL惩罚无差别地施加在所有推理轨迹上——包括那些本来就答错的轨迹——见过污染下从61.6分跌到59.4分，没见过污染下从56.3分跌到54.1分，降幅超过两个百分点。这是三个消融实验里影响最大的一个，说明"不强迫模型对错误保持一致"这个保护机制不可或缺。

此外，研究团队还系统地测试了关键超参数的敏感性。污染视角的数量K从1增到3时成绩持续提升，但增到4时略有下降，因此选定K=3为默认值。辅助梯度系数α和KL惩罚系数β都在0.10时达到最佳，太小则力度不足，太大则过度约束反而干扰了主要学习目标。

**七、从成绩单到具体题型：逐类拆解**

研究团队还在附录中提供了每种污染方式下每个测试集的详细分数。以8B模型的见过污染测试为例，高斯模糊对ChartQA的冲击最大：基础模型从79.4分跌到14.6分，GRPO从81.5分跌到15.8分，而ROMA从80.8分跌到16.9分——虽然三者在模糊图片下的ChartQA成绩都很低，但ROMA的绝对分数依然是三者中最高的。

这背后有个深层原因：ChartQA测试的是图表理解能力，而图表中的细节（坐标轴数字、图例文字）在高斯模糊下几乎完全无法辨认，所有模型都受到了极大冲击。即便如此，ROMA通过更稳健的推理过程，依然能多保留一点点有效信息，转化为更高的得分。

相比之下，在噪声类型的污染（如高斯噪声、椒盐噪声）上，三个模型的成绩差异相对较小，但ROMA依然保持了一致的优势，尤其在WeMath（数学推理）和LogicVista（逻辑推理）这类需要深度思考的测试集上，ROMA的提升幅度更为明显，说明稳定的推理过程对复杂任务的帮助更大。

**八、说到底，这意味着什么**

归根结底，ROMA解决的是一个非常实际的问题：当我们把AI部署到真实世界里，图片不总是完美的。手机拍糊了、网络传输压缩了、打印机坏了、扫描仪灰尘多了——这些日常场景下产生的"坏图片"，是AI必须面对的常态，而不是例外。

过去的研究大多在"AI能不能推理"上下功夫，ROMA则把目光投向了"AI的推理能不能扛得住视觉干扰"。这两个问题同样重要，缺一不可。一个在实验室里无比聪明、一到现实就出错的AI，实用价值是大打折扣的。

从技术层面看，ROMA的贡献在于优雅地绕开了"奖励中毒"这个看似无解的困境，用双通道设计将"让模型接触坏图片"和"保持奖励信号可靠"这两件本来矛盾的事情同时实现。这种思路本身也可能对其他类似的训练难题有参考价值。

当然，研究团队也坦诚地指出了未来可以继续探索的方向：将这套框架延伸到视频推理（视频本质上是连续的多帧图片，也面临类似的质量波动问题）；研究如何让系统根据图片污染的严重程度自动调整惩罚力度，而不是对所有情况用同样强度的约束。

如果你对多模态AI的鲁棒性研究有兴趣，可以通过编号arXiv:2605.09262找到这篇论文的完整版本，里面包含了更详尽的实验数据和技术细节。

Q&A

Q1：ROMA框架是什么？

A：ROMA是腾讯混元等机构提出的一种强化学习训练框架，全称是"鲁棒多模态推理"框架。它通过双通道前向传播、词元级KL惩罚、辅助策略梯度损失和正确性条件约束四个机制，让多模态AI模型在面对模糊、噪声、压缩等低质量图片时依然能保持准确的推理能力，同时不损失在清晰图片上的正常表现。

Q2：什么是"奖励中毒"问题？

A：奖励中毒是指在强化学习训练中，直接让AI模型对污染图片生成推理答案时，因为图片太模糊或噪声太多，模型会产生幻觉（编造错误推理），系统给出负惩罚，但这个惩罚无法区分"推理错了"还是"图片看不清"，导致训练信号充满误导，反而破坏模型原有的推理能力。ROMA通过不在污染图片上生成新答案来彻底规避这个问题。

Q3：ROMA在实验中比普通GRPO强化学习提升了多少？

A：在80亿参数的Qwen3-VL模型上，ROMA在见过的污染类型下比标准GRPO提升了2.4个百分点（61.6% vs 59.2%），在完全没见过的污染类型下提升了2.3个百分点（56.3% vs 54.0%），同时在清晰图片上的成绩几乎持平（68.7% vs 68.9%）。