东方理工团队提出HiDrop：压缩90%视觉Token实现2.2倍加速

随着多模态大语言模型（MLLM）支持更长上下文，高分辨率图像和长视频会产生远多于文本的视觉 Token，在自注意力二次复杂度下迅速成为效率瓶颈。

现有研究通常通过渐进式剪枝来减少视觉 Token，但多采用固定策略，忽略了 MLLM 不同层在多模态处理中的功能差异。

通过对 MLLM 内部信息流的分析，本文发现不同层的功能存在明显差异：浅层主要传递视觉特征，中层进行跨模态融合，而深层则承担语义整合与推理，视觉信息在层间呈现明显的非均匀演化过程。

基于上述观察，宁波东方理工大学 / 宁波数字孪生（东方理工）研究院沈晓宇团队提出 HiDrop，通过延迟注入（Late Injection）、凹金字塔式剪枝（Concave Pyramid Pruning）和提前退出（Early Exit）设计与模型层级功能对齐的视觉 Token 压缩策略。

实验效果：在压缩约 90% 的视觉 Token 的情况下，HiDrop 仍能保持98.3%的模型性能，并实现1.72×的训练加速和2.2×的预填充加速。

图 1：不同视觉 Token 剪枝策略的对比。 FastV 和 TwigVLM 在浅层阶段进行早期剪枝，PDrop 在各层采用统一比例的逐层剪枝，而 HiDrop 根据模型层级功能动态调整视觉 Token：浅层延迟注入，中层进行非均匀剪枝，并在深层提前移除剩余 Token，从而在保持性能的同时显著降低计算开销。

目前，该论文已被 ICLR 2026 接收。

论文标题：HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit 论文链接：https://arxiv.org/pdf/2602.23699 仓库链接：https://github.com/EIT-NLP/HiDrop

核心发现：揭示 MLLMS 内部信息处理的动态机制

为理解 MLLM 是如何处理和整合视觉信息，作者分析了模型表征在不同层中的演化过程。具体而言，通过计算各模态表示在层间的余弦相似度，以衡量模态内部表征的变化；同时，通过观察固定指令在配对不同图像时文本嵌入的变化，以评估视觉信息对文本表示的跨模态影响。

图 2：MLLM 各层的信息表征动态。左图展示了模态内部表征的逐层精化过程，而右图则反映了视觉与语言之间的跨模态交互强度。

浅层：从左图可以看到，浅层视觉 Token 表征具有明显的自相似性，仅在连续层之间发生微小的变化，表明 LLM 在此阶段对视觉表征的处理可忽略不计；从右图可以看到，浅层中固定指令的文本嵌入对不同的匹配图像几乎保持不变，这表明跨模态影响仍可忽略，且有意义的融合尚未发生。因此，浅层更像是视觉信息的传递通道，主要负责将视觉特征向更深层传播，而非进行实质性的语义处理。

中层：与被动的浅层不同，中层成为跨模态融合的关键阶段。此时，视觉信息开始显著影响文本表示，说明模型正在主动整合视觉与语言信息，完成语义层面的对齐与融合。然而进一步分析发现，这一过程具有明显的稀疏性：只有少量关键视觉 Token 对文本表示产生决定性影响，而大量视觉 Token 则相对冗余。因此，中层成为视觉 Token 压缩的关键阶段。

深层：当跨模态融合在中层基本完成后，模型进入以抽象语义推理为主的阶段。此时视觉信息对文本表示的直接影响逐渐减弱，模型更多依赖融合后的语义表示进行高层推理。

图 3：中层视觉 Token 的稀疏性分析。左图：不同 p 值下的视觉标记压缩曲线，其中较低的 p 值会强制实施更强的剪枝。右图：即使在高压缩率下，模型性能仍保持稳定，表明该剪枝策略具有良好的鲁棒性。

综合来看，MLLM 的信息处理呈现出明显的层级结构：浅层主要传递视觉信息，中层进行视觉与语言的跨模态融合，而深层则侧重于高层语义理解与推理。这一发现为设计更加合理的视觉 Token 压缩策略提供了重要启示。

核心方法：HiDrop 的三段式层级对齐压缩策略

基于对 MLLM 层级信息处理动态的分析，作者提出HiDrop 框架，通过与模型层级结构对齐的视觉 Token 压缩策略，在保证模型性能的同时显著降低计算开销。如图 4 所示，HiDrop 将视觉 Token 的处理划分为浅层、中层和深层三个阶段，并分别设计了不同的压缩策略，使计算资源分配与模型实际信息处理过程相匹配。

图 4：HiDrop 框架概述 (a) 框架示意图，浅层专注于视觉无关推理，中间层通过凹金字塔式方案多阶段剪枝冗余标记，深层实现早期视觉退出。(b) Hard top-k 算子与 Differentiable Top-k 算子的对比，后者实现自适应选择并更好地保留信息。

1. 浅层：视觉延迟注入（Late Injection）

根据前文分析，浅层对视觉信息的处理有限，视觉 Token 主要被动地向更深层传播。因此，HiDrop 并不会在模型输入时立即注入视觉 Token，而是延迟到更深层再引入。注入位置被设置在跨模态融合的起始处，作者通过视觉表征层间相似性曲线（图 2）中的局部最小值进行识别。由于浅层并不承担跨模态融合任务，这种延迟注入在减少计算量的同时几乎不会影响模型性能。

2. 中层：凹金字塔式剪枝（Concave Pyramid Pruning）

与浅层不同，中层是视觉与语言进行跨模态融合的关键阶段，同时视觉 Token 的贡献呈现明显稀疏性。因此 HiDrop 在该阶段采用激进的凹金字塔式剪枝策略，通过先急后缓的方式减少视觉 Token，并引入 Differentiable Top-k 算子实现自适应选择，在保持关键信息的同时降低计算开销。

为确定剪枝层级位置，作者提出 Inter-Layer Visual Attention Similarity（ILVAS）指标，通过衡量视觉 Token 注意力在相邻层之间的稳定性来识别适合进行过滤的层，并根据 ILVAS 曲线的局部极值确定中层的剪枝位置。

3. 深层：视觉提前退出（Early Exit）

当跨模态融合在中层基本完成后，模型进入以高层语义理解与推理为主的阶段，此时视觉 Token 对文本表示的影响显著减弱。因此，HiDrop 在深层提前移除剩余视觉 Token，使后续层仅处理融合后的语义表示。

为确定退出位置，作者通过从深到浅的掩码分析观察性能变化，并选择性能趋于稳定的退出点，从而减少深层注意力计算。结合浅层的延迟注入与深层的提前退出，HiDrop 实际形成了一个聚焦的视觉处理窗口，将视觉 Token 的计算集中在中间层。消融实验表明，该窗口识别策略能够实现良好的效率–性能 trade-off。

此外，HiDrop 还针对动态 Token 选择带来的实现挑战进行了优化，例如采用持久化位置编码保持位置一致性、保持与 FlashAttention 的兼容，并通过并行解耦视觉计算进一步缩短预填充时间。

实验结果：更高压缩率，更优性能，更佳效率

在多个多模态基准测试上，HiDrop 在更高压缩率下仍保持优异性能。实验结果表明，当压缩率为 88.9% 时，仍能保持 98.3% 的原始性能；即使压缩率进一步提升至 91.7% 时，其性能仍然超过 PDrop 在 88.9% 压缩率下的表现，展现出更优的压缩–性能 trade-off。

除了保持性能外，HiDrop 还显著提升了计算效率。该方法将平均视觉 Token 数量减少约 90%，大幅降低了推理 FLOPs，并在 LLaVA-1.5-7B 上实现约 1.7× 的训练加速和 2.2× 预填充加速

总结

本文从 MLLM 内部的信息处理动态出发，揭示了视觉信息在不同层中的功能差异，并据此提出 HiDrop 压缩框架。实验结果表明，HiDrop 在实现极高视觉 Token 压缩率的同时仍能保持接近原始模型的性能，并显著提升训练与推理效率。该研究表明，理解模型内部的信息流结构是设计高效多模态模型的重要方向。

作者介绍

第一作者吴浩，为宁波东方理工大学 / 宁波数字孪生（东方理工）研究院沈晓宇团队科研助理，研究方向为多模态大模型压缩和流式大模型。其在 ICLR、CVPR、ECCV 等顶级会议发表多篇研究成果，其中一篇入选 Best Paper Award Finalist。更多科研项目成果请参阅实验室主页：https://idt.eitech.edu.cn/nlp/#/