随着多模态大语言模型(MLLM)支持更长上下文,高分辨率图像和长视频会产生远多于文本的视觉 Token,在自注意力二次复杂度下迅速成为效率瓶颈。

现有研究通常通过渐进式剪枝来减少视觉 Token,但多采用固定策略,忽略了 MLLM 不同层在多模态处理中的功能差异。

通过对 MLLM 内部信息流的分析,本文发现不同层的功能存在明显差异:浅层主要传递视觉特征,中层进行跨模态融合,而深层则承担语义整合与推理,视觉信息在层间呈现明显的非均匀演化过程。

基于上述观察,宁波东方理工大学 / 宁波数字孪生(东方理工)研究院沈晓宇团队提出 HiDrop,通过 延迟注入(Late Injection) 、凹金字塔式剪枝(Concave Pyramid Pruning)和提前退出(Early Exit) 设计与模型层级功能对齐的视觉 Token 压缩策略。

实验效果: 在压缩约 90% 的视觉 Token 的情况下,HiDrop 仍能保持98.3%的模型性能,并实现1.72×的训练加速和2.2×的预填充加速。



图 1:不同视觉 Token 剪枝策略的对比。 FastV 和 TwigVLM 在浅层阶段进行早期剪枝,PDrop 在各层采用统一比例的逐层剪枝,而 HiDrop 根据模型层级功能动态调整视觉 Token:浅层延迟注入,中层进行非均匀剪枝,并在深层提前移除剩余 Token,从而在保持性能的同时显著降低计算开销。

目前,该论文已被 ICLR 2026 接收。



核心发现:揭示 MLLMS 内部信息处理的动态机制

为理解 MLLM 是如何处理和整合视觉信息,作者分析了模型表征在不同层中的演化过程。具体而言,通过计算各模态表示在层间的余弦相似度,以衡量模态内部表征的变化;同时,通过观察固定指令在配对不同图像时文本嵌入的变化,以评估视觉信息对文本表示的跨模态影响。



图 2:MLLM 各层的信息表征动态。左图展示了模态内部表征的逐层精化过程,而右图则反映了视觉与语言之间的跨模态交互强度。

浅层:从左图可以看到,浅层视觉 Token 表征具有明显的自相似性,仅在连续层之间发生微小的变化,表明 LLM 在此阶段对视觉表征的处理可忽略不计;从右图可以看到,浅层中固定指令的文本嵌入对不同的匹配图像几乎保持不变,这表明跨模态影响仍可忽略,且有意义的融合尚未发生。因此,浅层更像是视觉信息的传递通道,主要负责将视觉特征向更深层传播,而非进行实质性的语义处理。

中层:与被动的浅层不同,中层成为跨模态融合的关键阶段。此时,视觉信息开始显著影响文本表示,说明模型正在主动整合视觉与语言信息,完成语义层面的对齐与融合。然而进一步分析发现,这一过程具有明显的稀疏性:只有少量关键视觉 Token 对文本表示产生决定性影响,而大量视觉 Token 则相对冗余。因此,中层成为视觉 Token 压缩的关键阶段。

深层:当跨模态融合在中层基本完成后,模型进入以抽象语义推理为主的阶段。此时视觉信息对文本表示的直接影响逐渐减弱,模型更多依赖融合后的语义表示进行高层推理。



图 3:中层视觉 Token 的稀疏性分析。左图:不同 p 值下的视觉标记压缩曲线,其中较低的 p 值会强制实施更强的剪枝。右图:即使在高压缩率下,模型性能仍保持稳定,表明该剪枝策略具有良好的鲁棒性。

综合来看,MLLM 的信息处理呈现出明显的层级结构:浅层主要传递视觉信息,中层进行视觉与语言的跨模态融合,而深层则侧重于高层语义理解与推理。这一发现为设计更加合理的视觉 Token 压缩策略提供了重要启示。

核心方法:HiDrop 的三段式层级对齐压缩策略

基于对 MLLM 层级信息处理动态的分析,作者提出HiDrop 框架,通过与模型层级结构对齐的视觉 Token 压缩策略,在保证模型性能的同时显著降低计算开销。如图 4 所示,HiDrop 将视觉 Token 的处理划分为 浅层、中层和深层三个阶段,并分别设计了不同的压缩策略,使计算资源分配与模型实际信息处理过程相匹配。



图 4:HiDrop 框架概述 (a) 框架示意图,浅层专注于视觉无关推理,中间层通过凹金字塔式方案多阶段剪枝冗余标记,深层实现早期视觉退出。(b) Hard top-k 算子与 Differentiable Top-k 算子的对比,后者实现自适应选择并更好地保留信息。

1. 浅层:视觉延迟注入 (Late Injection)

根据前文分析,浅层对视觉信息的处理有限,视觉 Token 主要被动地向更深层传播。因此,HiDrop 并不会在模型输入时立即注入视觉 Token,而是延迟到更深层再引入。注入位置被设置在跨模态融合的起始处,作者通过视觉表征层间相似性曲线(图 2)中的局部最小值进行识别。由于浅层并不承担跨模态融合任务,这种延迟注入在减少计算量的同时几乎不会影响模型性能。

2. 中层:凹金字塔式剪枝 (Concave Pyramid Pruning)

与浅层不同,中层是视觉与语言进行跨模态融合的关键阶段,同时视觉 Token 的贡献呈现明显稀疏性。因此 HiDrop 在该阶段采用 激进的凹金字塔式剪枝策略,通过先急后缓的方式减少视觉 Token,并引入 Differentiable Top-k 算子实现自适应选择,在保持关键信息的同时降低计算开销。

为确定剪枝层级位置,作者提出 Inter-Layer Visual Attention Similarity(ILVAS) 指标,通过衡量视觉 Token 注意力在相邻层之间的稳定性来识别适合进行过滤的层,并根据 ILVAS 曲线的局部极值确定中层的剪枝位置。

3. 深层:视觉提前退出 (Early Exit)

当跨模态融合在中层基本完成后,模型进入以高层语义理解与推理为主的阶段,此时视觉 Token 对文本表示的影响显著减弱。因此,HiDrop 在深层提前移除剩余视觉 Token,使后续层仅处理融合后的语义表示。

为确定退出位置,作者通过 从深到浅的掩码分析 观察性能变化,并选择性能趋于稳定的退出点,从而减少深层注意力计算。结合浅层的 延迟注入 与深层的 提前退出,HiDrop 实际形成了一个 聚焦的视觉处理窗口,将视觉 Token 的计算集中在中间层。消融实验表明,该窗口识别策略能够实现良好的效率–性能 trade-off。

此外,HiDrop 还针对动态 Token 选择带来的实现挑战进行了优化,例如采用 持久化位置编码 保持位置一致性、保持与 FlashAttention 的兼容,并通过并行解耦视觉计算进一步缩短预填充时间。

实验结果:更高压缩率,更优性能,更佳效率



在多个多模态基准测试上,HiDrop 在更高压缩率下仍保持优异性能。实验结果表明,当压缩率为 88.9% 时,仍能保持 98.3% 的原始性能;即使压缩率进一步提升至 91.7% 时,其性能仍然超过 PDrop 在 88.9% 压缩率下的表现,展现出更优的压缩–性能 trade-off。



除了保持性能外,HiDrop 还显著提升了计算效率。该方法将平均视觉 Token 数量减少约 90%,大幅降低了推理 FLOPs,并在 LLaVA-1.5-7B 上实现约 1.7× 的训练加速和 2.2× 预填充加速

总结

本文从 MLLM 内部的信息处理动态出发,揭示了视觉信息在不同层中的功能差异,并据此提出 HiDrop 压缩框架。实验结果表明,HiDrop 在实现极高视觉 Token 压缩率的同时仍能保持接近原始模型的性能,并显著提升训练与推理效率。该研究表明,理解模型内部的信息流结构是设计高效多模态模型的重要方向。

作者介绍

第一作者吴浩,为宁波东方理工大学 / 宁波数字孪生(东方理工)研究院沈晓宇团队科研助理,研究方向为多模态大模型压缩和流式大模型。其在 ICLR、CVPR、ECCV 等顶级会议发表多篇研究成果,其中一篇入选 Best Paper Award Finalist。更多科研项目成果请参阅实验室主页:https://idt.eitech.edu.cn/nlp/#/