01Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

arXiv: 2603.12254 UC Berkeley, MIT, NVIDIA

TLDR

提出AutoGaze,一个仅3M参数的轻量级模块,在ViT处理之前自回归地选择多尺度patch以去除视频冗余。视觉token减少4×-100×,ViT加速最高19×,MLLM加速最高10×,实现1K帧4K分辨率视频理解,VideoMME达67.0%。

动机与发现

问题:如何高效处理长视频和高分辨率视频

现有MLLM对视频每一帧的每个像素都同等处理,但视频存在大量时空冗余。现有token压缩方法通常只在LLM层面裁剪token,ViT仍需处理全部像素,形成效率瓶颈。

关键发现

  • 运动是主要信息源:AutoGaze优先选择光流大的运动区域patch
  • 尺度与细节匹配:细节丰富区域使用更细粒度尺度,平坦区域用粗粒度尺度
  • 高FPS/高分辨率更高效:30FPS 4K视频仅需约1%的patch即可达到0.7重建损失

方法

AutoGaze架构
图2: AutoGaze架构与训练流程

AutoGaze是一个3M参数的轻量模型,包含卷积编码器和自回归transformer解码器。它逐帧处理视频,自回归地选择最小的多尺度patch集合,使重建损失低于用户指定阈值。

关键创新点

  • 在ViT之前去除冗余patch(而非ViT之后),从源头减少计算
  • 多尺度patch选择,适配不同细节程度区域
  • 两阶段训练:NTP预训练 + RL后训练

实验结果

模型VideoMMEMVBenchHLVid
NVILA-8B-Video64.268.142.5
NVILA + AutoGaze67.069.752.6

结论

AutoGaze证明视频理解无需处理全部像素,选择性注视可达同等甚至更好效果。轻量级(3M参数)可无缝集成到现有ViT和MLLM中。

02Attention Residuals

arXiv: 2603.15031 Moonshot AI(月之暗面)

TLDR

现代LLM的标准残差连接(PreNorm)以固定权重累积所有层输出,导致隐藏状态稀释。本文提出Attention Residuals(AttnRes),用softmax attention替代固定累积,使每层能有选择性地聚合先前表示。在Kimi Linear架构(48B/3B)上预训练1.4T tokens验证有效。

动机与发现

问题:PreNorm残差连接的隐藏状态稀释

  • 隐藏状态幅值随深度增长为O(L)
  • 每层贡献被稀释,早期层信息被埋没
  • 梯度分布不均匀

关键发现

  • 深度与时间的对偶性:残差连接在深度维度上类似于RNN在时间维度上的压缩
  • 内容依赖的深度选择有益:让模型根据输入内容决定聚合哪些层
  • Scaling Law一致性:Block AttnRes用1.25×更少计算达到相同loss

方法

Attention Residuals概览
图1: Attention Residuals概览。(a)标准残差 (b)Full AttnRes (c)Block AttnRes

Full AttnRes

用softmax attention替代残差连接中的简单求和:$h_l = \sum \alpha_{i \to l} \cdot v_i$,其中$\alpha_{i \to l}$是softmax attention权重。

Block AttnRes

将L层分为N个块,块内标准残差求和,块间进行full attention。内存和通信从O(Ld)降至O(Nd)。实验发现N≈8即可恢复大部分收益。

实验结果

  • Scaling Law实验:Block AttnRes在所有计算预算下均优于基线
  • Kimi Linear(48B模型):所有评估任务上均提升下游性能
  • 训练开销<4%,推理延迟增加<2%

结论

AttnRes首次发现深度与时间的对偶性,将残差连接统一到attention框架。Block AttnRes成为可直接替换的实用方案,在Kimi等实际产品中得到验证。

03Self-Distillation of Hidden Layers for Self-Supervised Representation Learning (Bootleg)

arXiv: 2603.15553 Vector Institute, UBC

TLDR

提出Bootleg方法,通过预测教师网络中多个隐藏层的潜在表示来进行自监督学习,桥接了MAE(像素级)和I-JEPA(嵌入级)之间的鸿沟。在ImageNet-1K上比I-JEPA高出10%以上的准确率。

动机与发现

关键发现

  • 隐藏层目标优于最终层:预测教师网络中间层的表示比仅预测最终层效果更好
  • 多层目标组合更优:同时预测多个隐藏层的组合优于单个隐藏层
  • 掩码策略决定稳定性:结构化掩码(矩形掩码)能稳定训练

方法

Bootleg方法
图1: Bootleg多层自蒸馏方法

Bootleg通过预测教师网络中多个隐藏层的表示来学习多层次的抽象特征。目标层均匀分布在编码器深度上,每4个块取一个。

实验结果

方法ViT-SViT-BViT-L
MAE66.4%76.0%79.5%
I-JEPA61.9%72.4%72.3%
Bootleg75.3%79.2%80.6%

ADE20K语义分割上,Bootleg从I-JEPA的11.8%提升至26.6%(ViT-S)。

结论

Bootleg验证了"最深层不一定最好"的假设,中间层的特征对许多下游任务更有用。单视角方法,不需要大批量训练,在消费级GPU上即可预训练。

04V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning

arXiv: 2603.14482 FAIR at Meta

TLDR

V-JEPA 2.1通过将预测损失扩展到所有token(包括可见和被遮蔽的patch),解决了视频SSL中密集特征质量差的问题。在ADE20K达到47.9 mIoU,SSv2达到77.7%准确率,机器人抓取成功率提升20%。

动机与发现

关键发现

  • 监督缺失假说:仅对被遮蔽token应用预测损失,上下文token缺乏监督
  • 上下文监督有效性:引入监督后ADE20K从22.2提升至33.9 mIoU
  • 深度自监督平衡:在编码器中间层应用自监督目标,同时提升密集和全局任务

方法

V-JEPA 2.1架构
图2: V-JEPA 2.1详细架构

提出$\mathcal{L}_{dense} = \mathcal{L}_{predict} + \mathcal{L}_{ctx}$,对所有token应用自监督损失。$\mathcal{L}_{ctx}$采用距离加权方案,强调靠近掩码区域的patch。

实验结果

任务数据集V-JEPA 2.1前代SOTA
深度估计NYUv20.307DINOv3
语义分割ADE20K47.9DINOv3
动作识别SSv277.7%DINOv3

结论

V-JEPA 2.1揭示了视频SSL中密集特征质量与监督范围的关系。提供从2B模型蒸馏到80M/300M小型模型的实用方案。

05Kimodo: Scaling Controllable Human Motion Generation

arXiv: 2603.15546 NVIDIA

TLDR

NVIDIA提出的可控人体运动生成扩散模型,在700小时专业动捕数据上训练。两阶段去噪器架构将根运动与身体运动分解预测,全身关键帧误差2.67cm,末端执行器3.09cm,可直接用于机器人演示数据生成。

动机与发现

关键发现

  • 数据规模至关重要:700小时训练显著提升约束跟随能力
  • 两阶段分解架构有效:脚部滑动从7.59降至3.87 cm/s
  • 规模定律成立:数据/模型/批大小三维度扩展均提升性能

方法

Kimodo去噪器架构
图9: 两阶段去噪器架构

采用显式运动扩散模型,通过全局运动表示和两阶段Transformer去噪器实现精确控制。约束通过直接植入(imputation)覆盖噪声运动输入。

实验结果

方法R@3↑FID↓滑动(cm/s)↓全身Pos(cm)↓
完整模型71.91.853.872.67
单阶段架构71.51.657.598.37

结论

Kimodo证明了运动生成领域的规模定律,提供开源模型(SOMA人体骨架和Unitree G1机器人版本),可快速生成机器人演示数据。

06OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams

arXiv: 2603.12265 上海交通大学、牛津大学

TLDR

统一的流式视觉骨干网络,通过因果时空注意力和3D-RoPE将预训练图像ViT转化为在线流式模型。在29个数据集上预训练,骨干冻结时在感知、推理、机器人操作任务上均取得竞争性能。

动机与发现

关键发现

  • 因果视频建模至关重要:移除视频SSL导致SSv2下降6.3%
  • 显式几何预训练是具身AI前提:禁用3D重建导致VSI-Bench下降4.8%
  • 早期视觉语言对齐防止灾难性失败:移除字幕任务导致VideoMME下降9.1%

方法

OmniStream框架
图2: OmniStream整体框架

将DINOv3图像ViT转化为流式视觉骨干:因果时空注意力实现严格时序因果性,3D-RoPE将2D RoPE扩展到时空域(t:y:x = 2:3:3)。

实验结果

任务基准OmniStreamDINOv3-L
动作识别SSv268.5%54.0%
动作识别K40085.7%83.6%
机器人操作CALVIN3.885-

结论

证明单一视觉骨干可同时支持语义、空间和时序推理。KV-cache实现O(T)时序复杂度,支持110帧零样本长度外推。

07Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

arXiv: 2603.07660 上海AI Lab、清华、北大等

TLDR

首个全自动视频流到3D空间标注管道,包含几何优化、图像级感知、场景级精炼三阶段。构建Holi-Spatial-4M数据集(12K场景、400万+标注),微调Qwen3-VL后3D定位AP50提升15%,MMSI-Bench准确率提升7.9%。

动机与发现

关键发现

  • AI工具组合潜力:系统组合Depth-Anything-V3、SAM3、VLM可构建超越人工标注的引擎
  • 多视图一致性:3DGS优化后的深度图能有效消除浮点噪声
  • VLM Agent验证:恢复被错误过滤的低置信度真阳性

方法

Holi-Spatial管道
图3: Holi-Spatial管道概览

三阶段流水线:(1)几何优化通过3DGS提炼高保真3D结构;(2)图像级感知将2D VLM和SAM3预测提升为初始3D提议;(3)场景级精炼采用粗到细策略生成高质量标注。

实验结果

指标Holi-SpatialM3-Spatial提升
ScanNet++ Depth F10.890.39+128%
ScanNet++ 3D Det AP5070.054.80+1360%
Qwen3-VL 3D定位 AP5027.9813.50+107%

结论

证明了通过系统组合现有AI工具可以构建超越人工标注的自动化数据引擎。为机器人操作、导航、AR等应用提供数据基础。

08Prompt-Free Universal Region Proposal Network (PF-RPN)

arXiv: 2603.17554 南京大学、中国科学技术大学

TLDR

无需外部提示的通用区域建议网络,可在跨域场景中零样本识别任意潜在物体。核心创新包括稀疏图像感知适配器、级联自提示机制和中心性引导查询选择,仅需5% COCO数据训练,在19个跨域数据集上比GDINO提升6.0-7.5 AR。

动机与发现

关键发现

  • 视觉特征比文本更适合定位:用可学习嵌入替代文本嵌入
  • 物体内部特征优于可学习嵌入:可用于迭代检索其他物体
  • 中心查询生成更精确的边界框

方法

PF-RPN架构
图2: PF-RPN整体架构

三个核心组件

  • 稀疏图像感知适配器(SIA):MoE路由器稀疏选择特征级别
  • 级联自提示(CSP):用已发现物体的特征迭代检索其他物体
  • 中心性引导查询选择(CG-QS):优先选择高质量查询

实验结果

方法CD-FSOD AR100CD-FSOD AR900ODinW13 AR100
GDINO52.954.772.1
PF-RPN60.768.276.5

结论

首次提出无需任何外部提示的区域建议网络,仅需5%标注数据,推理速度比GDINO更快(4.6 vs 3.3 FPS),可无缝集成到现有检测器。

09EdgeCrafter: Compact ViTs for Edge Dense Prediction via Task-Specialized Distillation

arXiv: 2603.18739 Intellindust AI Lab

TLDR

面向边缘部署的紧凑ViT框架,通过任务特化蒸馏解决小型ViT在密集预测中表征不足的问题。ECDet-S以10M参数达到51.7 AP,ECPose-X以74.8 AP超越YOLO26Pose-X(71.6 AP)。

动机与发现

关键发现

  • 通用预训练对紧凑ViT不够用:ImageNet-21K预训练甚至比从头训练效果更差
  • 任务特化蒸馏显著提升下游性能:将DINOv3适配到检测再蒸馏
  • 检测表征可直接迁移到其他任务:同一backbone支持检测、分割、姿态估计

方法

EdgeCrafter流水线
图2: EdgeCrafter流水线概览

三阶段流水线:(1)将DINOv3适配为检测特化教师;(2)通过特征对齐蒸馏到紧凑ECViT学生;(3)复用到密集预测多个下游任务。

实验结果

模型参数量APAP50
YOLOv9-S7M46.861.8
DEIMv2-S10M50.968.4
ECDet-S10M51.769.4

ECPose-X达到74.8 AP,超越YOLO26Pose-X(71.6 AP,还使用了Objects365预训练)。

结论

为边缘部署提供了比YOLO更具竞争力的ViT替代方案,无需Objects365等大规模额外预训练数据,仅用COCO标注即可达到SOTA级别性能。