01Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing
TLDR
提出AutoGaze,一个仅3M参数的轻量级模块,在ViT处理之前自回归地选择多尺度patch以去除视频冗余。视觉token减少4×-100×,ViT加速最高19×,MLLM加速最高10×,实现1K帧4K分辨率视频理解,VideoMME达67.0%。
动机与发现
问题:如何高效处理长视频和高分辨率视频
现有MLLM对视频每一帧的每个像素都同等处理,但视频存在大量时空冗余。现有token压缩方法通常只在LLM层面裁剪token,ViT仍需处理全部像素,形成效率瓶颈。
关键发现
- 运动是主要信息源:AutoGaze优先选择光流大的运动区域patch
- 尺度与细节匹配:细节丰富区域使用更细粒度尺度,平坦区域用粗粒度尺度
- 高FPS/高分辨率更高效:30FPS 4K视频仅需约1%的patch即可达到0.7重建损失
方法

图2: AutoGaze架构与训练流程
AutoGaze是一个3M参数的轻量模型,包含卷积编码器和自回归transformer解码器。它逐帧处理视频,自回归地选择最小的多尺度patch集合,使重建损失低于用户指定阈值。
关键创新点
- 在ViT之前去除冗余patch(而非ViT之后),从源头减少计算
- 多尺度patch选择,适配不同细节程度区域
- 两阶段训练:NTP预训练 + RL后训练
实验结果
| 模型 | VideoMME | MVBench | HLVid |
|---|---|---|---|
| NVILA-8B-Video | 64.2 | 68.1 | 42.5 |
| NVILA + AutoGaze | 67.0 | 69.7 | 52.6 |
结论
AutoGaze证明视频理解无需处理全部像素,选择性注视可达同等甚至更好效果。轻量级(3M参数)可无缝集成到现有ViT和MLLM中。







