1 Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

作者:Baifeng Shi, Stephanie Fu, Long Lian, Hanrong Ye, David Eigen, Aaron Reite, Boyi Li, Jan Kautz, Song Han, David M. Chan, Pavlo Molchanov, Trevor Darrell, Hongxu Yin 机构:UC Berkeley, MIT, Clarifai, NVIDIA arXiv:2603.12254 | 日期:2026年3月12日

作者:Baifeng Shi, Stephanie Fu, Long Lian, Hanrong Ye, David Eigen, Aaron Reite, Boyi Li, Jan Kautz, Song Han, David M. Chan, Pavlo Molchanov, Trevor Darrell, Hongxu Yin

机构:UC Berkeley, MIT, Clarifai, NVIDIA

arXiv:2603.12254 | 日期:2026年3月12日


TLDR

提出AutoGaze,一个仅3M参数的轻量级模块,在ViT处理之前自回归地选择多尺度patch以去除视频冗余。视觉token减少4×-100×,ViT加速最高19×,MLLM加速最高10×,实现1K帧4K分辨率视频理解,VideoMME达67.0%。同时提出首个高分辨率长视频QA基准HLVid(5分钟4K视频),AutoGaze比基线提升10.1%,比之前最佳MLLM高4.5%。


动机与发现

问题:如何高效处理长视频和高分辨率视频

现有MLLM对视频每一帧的每个像素都同等处理,但视频存在大量时空冗余(静态背景、重复区域)。现有token压缩方法通常只在LLM层面裁剪token,ViT仍需处理全部像素,形成效率瓶颈。

关键发现

  1. 运动是主要信息源:AutoGaze优先选择光流大的运动区域patch
  2. 尺度与细节匹配:细节丰富区域使用更细粒度尺度,平坦区域用粗粒度尺度
  3. OOD泛化能力强:在未见过的视频风格和语义上仍能正确追踪变化区域
  4. 高FPS/高分辨率更高效:30FPS 4K视频仅需约1%的patch即可达到0.7重建损失

方法

图2: AutoGaze架构和训练流程

图2: AutoGaze架构与训练流程。左中:自回归地解码多尺度patch索引;右:两阶段训练:NTP预训练 + RL后训练

核心思想

AutoGaze是一个3M参数的轻量模型,包含卷积编码器和自回归transformer解码器。它逐帧处理视频,自回归地选择最小的多尺度patch集合,使重建损失低于用户指定阈值。

自回归注视机制

AutoGaze交替进行帧编码和patch选择。对第一帧编码后解码patch索引,第二帧基于两帧特征和第一帧的注视历史来解码patch索引,从而避免选择冗余patch。解码过程类似LLM,但词汇表是patch索引{1,...,V}而非词语。

自动决定注视长度

解码器增加一个预测头,在每步解码时预测当前已选patch的重建损失。一旦预测损失低于阈值,自动停止对该帧的注视。

多尺度注视

词汇表包含多尺度patch(如1×1、2×2、4×4、8×8),解码器可根据区域细节程度选择不同尺度。平坦区域用粗粒度patch覆盖大面积,细节区域用细粒度patch捕获精细信息。

关键创新点:

  • 在ViT之前去除冗余patch(而非ViT之后),从源头减少计算
  • 多尺度patch选择,适配不同细节程度区域
  • 多token预测,一次输出多个patch索引,加速解码

两阶段训练

NTP预训练:在800K视频中用贪心搜索收集250K视频的准最优注视序列,用next-token prediction损失训练模型学习子最优注视策略。

RL后训练:用简化GRPO算法,以重建损失为奖励,发现更优的注视序列。奖励为未来帧负重建损失的折扣累积。

下游应用

尽管训练在16帧224×224视频上,AutoGaze可处理任意分辨率和时长视频。将视频分割为16×224×224时空tile,在每个tile上运行AutoGaze后合并结果。ViT通过插值支持多尺度patch输入,将图像ViT改造为视频ViT。


实验设定与结果

图7: ViT和MLLM效率增益

图7: AutoGaze在ViT和MLLM上的效率增益。使用重建损失0.7所需的注视比例时,ViT加速最高19×,MLLM加速最高10×

实验配置

  • ViT:SigLIP2-SO400M
  • MLLM:NVILA-8B-Video
  • 重建损失阈值:0.7(性能下降<0.5%)
  • 数据集:VideoMME, MVBench, NExT-QA, L-VidBench, EgoSchema, MLVU, HLVid

核心结果

效率提升

  • 视觉token减少4×-100×(30FPS 4K视频仅需~1% patch)
  • ViT加速最高19×,MLLM加速最高10×
  • 可扩展至1024帧、3584分辨率

性能对比

模型 VideoMME MVBench HLVid
NVILA-8B-Video 64.2 68.1 42.5
NVILA + AutoGaze 67.0 69.7 52.6
Qwen2.5-VL-7B 65.1 69.6 48.1
GPT-4o 71.9 64.6 49.3

AutoGaze在HLVid上比基线提升10.1%,比之前最佳模型VideoChat-Flash高4.5%。

与token裁剪方法对比

AutoGaze将ViT延迟从2.20s降至0.55s(4×加速),而其他方法仅加速LLM,ViT延迟不变。性能与无裁剪基线持平。


启示和结论

主要贡献

  1. 提出AutoGaze,在ViT之前去除视频冗余patch,从源头提升效率
  2. 两阶段训练(NTP预训练+RL后训练)学习高效注视策略
  3. 首个高分辨率长视频基准HLVid,推动该方向研究

理论意义

  • 证明视频理解无需处理全部像素,选择性注视可达同等甚至更好效果
  • 将LLM的自回归思想应用于视觉token选择

实践价值

  • 使4K长视频理解成为可能,无需巨额算力
  • 轻量级(3M参数)可无缝集成到现有ViT和MLLM中

局限性

  • 训练数据以16帧224×224为主,对极端长视频或超高清视频的泛化有待验证
  • 重建损失阈值需人工设定,不同场景可能需调整

代码:https://autogaze.github.io/

2 Attention Residuals

作者:Kimi Team: Guangyu Chen, Yu Zhang, Jianlin Su, Weixin Xu, Siyuan Pan 等36位作者 机构:Moonshot AI(月之暗面) arXiv:2603.15031 | 日期:2026年3月16日

作者:Kimi Team: Guangyu Chen, Yu Zhang, Jianlin Su, Weixin Xu, Siyuan Pan 等36位作者

机构:Moonshot AI(月之暗面)

arXiv:2603.15031 | 日期:2026年3月16日


TLDR

现代 LLM 的标准残差连接(PreNorm)以固定权重累积所有层输出,导致隐藏状态随深度增长而稀释各层贡献。本文提出 Attention Residuals(AttnRes),用 softmax attention 替代固定累积,使每层能有选择性地聚合先前表示。Block AttnRes 通过分块将内存从 O(Ld) 降至 O(Nd),成为实用的 drop-in replacement。在 Kimi Linear 架构(48B/3B)上预训练 1.4T tokens 的实验表明,AttnRes 在所有评估任务上均提升下游性能。


动机与发现

问题:PreNorm 残差连接的隐藏状态稀释

标准残差连接将各层输出简单相加(固定单位权重),这种均匀聚合导致:

  1. 隐藏状态幅值膨胀:随深度增长为 O(L)
  2. 每层贡献被稀释:早期层信息被埋没,无法选择性检索
  3. 梯度分布不均匀:深层梯度衰减

关键发现

  1. 深度与时间的对偶性:残差连接在深度维度上类似于 RNN 在时间维度上的压缩,都可以用 attention 机制替代
  2. 内容依赖的深度选择有益:让模型根据输入内容决定聚合哪些层的输出,比固定权重更有效
  3. Scaling Law 一致性:AttnRes 的改进在不同模型规模下保持一致,Block AttnRes 用 1.25× 更少计算达到相同 loss

方法

核心思想

用 softmax attention 替代残差连接中的简单求和。每层的输出不再直接加到累积状态上,而是通过 attention 机制有选择性地从先前层的表示中聚合信息。

Full AttnRes

标准残差连接:


h_l = h_{l-1} + f_l(h_{l-1})

AttnRes 改为:


h_l = Σ α_{i→l} · v_i

其中 α_{i→l} 是 softmax attention 权重,v_i 是各层输出。

查询和键的设计:

  • 查询 q_l = w_l:每层一个学习的 d 维向量
  • 键 k_i:各层输出的 RMSNorm
  • 注意力:α_{i→l} = exp(q_l^T · k_i) / Σ exp(q_l^T · k_j)

关键创新点:

  • 内容依赖的深度选择:用 softmax attention 替代固定权重
  • 轻量级查询:每层只需一个 d 维向量,而非依赖输入
  • Block 分块:将 L 层分成 N 个块,块内求和,块间 attention

Block AttnRes

动机:Full AttnRes 在大规模训练中面临 O(Ld) 的内存和通信开销。

解决方案

  1. 将 L 层分为 N 个块,每块 S = L/N 层
  2. 块内:标准残差求和
  3. 块间:对 N 个块表示进行 full attention
  4. 内存和通信从 O(Ld) 降至 O(Nd)

效率对比

  • N = L:恢复 Full AttnRes
  • N = 1:恢复标准残差
  • 实验发现 N ≈ 8 即可恢复大部分收益

基础设施优化

训练优化(跨阶段缓存)

  • 在流水线并行中,缓存已传输的块表示
  • 只传输增量块,消除冗余通信
  • 通信开销从 O(C) 降至 O(P)

推理优化(两阶段计算)

  • 阶段1:批量计算所有 S 层的块间 attention(并行)
  • 阶段2:逐层计算块内 attention,用 online softmax 合并
  • 推理延迟开销 < 2%

实验设定与结果

实验配置

  • 模型架构:Kimi Linear(MoE 架构,48B 总参数 / 3B 激活参数)
  • 预训练数据:1.4T tokens
  • 评估任务:多项下游任务

核心结果

Scaling Law 实验

  • Block AttnRes 在所有计算预算下均优于基线
  • 用 1.25× 更少计算达到相同 loss

Kimi Linear 集成效果(48B 模型)

  • 缓解 PreNorm 稀释:输出幅度在各层更均匀
  • 梯度分布改善:各层梯度分布更均衡
  • 所有评估任务上均提升下游性能

消融实验

  • Full AttnRes > Block AttnRes > 标准残差
  • 块大小 N=8 时达到性能与效率的最佳平衡

启示和结论

主要贡献

  1. 理论洞察:首次发现深度与时间的对偶性,将残差连接统一到 attention 框架
  2. 方法创新:提出 AttnRes 和 Block AttnRes,用 attention 替代固定权重聚合
  3. 工程实践:跨阶段缓存和两阶段计算使 Block AttnRes 成为可直接替换的实用方案
  4. 大规模验证:在 48B 参数模型上验证有效性,跨规模一致的改进

理论意义

  • 揭示了残差连接的深层问题:固定权重聚合导致表示质量随深度下降
  • 证明了内容依赖的层选择比固定聚合更优
  • 统一了残差连接与 attention 机制的理论框架

实践价值

  • 作为 drop-in replacement,可直接应用于现有 LLM 架构
  • 训练开销极小(<4%),推理延迟增加 <2%
  • 在 Kimi 等实际产品中得到验证

局限性

  • 是 tech report,部分实验细节和消融研究可能不够完整
  • 块大小的选择对性能有影响,需要根据具体场景调优
  • 对于非常深的网络(如 100+ 层),最佳分块策略仍需研究

代码:https://github.com/MoonshotAI/Attention-Residuals

3 EdgeCrafter: Compact ViTs for Edge Dense Prediction via Task-Specialized Distillation

作者:Longfei Liu, Yongjie Hou, Yang Li, Qirui Wang, Youyang Sha, Yongjun Yu, Yinzhi Wang, Peizhe Ru, Xuanlong Yu, Xi Shen 机构:Intellindust AI Lab arXiv:2603.18739 | 日期:2026年3月19日

作者:Longfei Liu, Yongjie Hou, Yang Li, Qirui Wang, Youyang Sha, Yongjun Yu, Yinzhi Wang, Peizhe Ru, Xuanlong Yu, Xi Shen

机构:Intellindust AI Lab

arXiv:2603.18739 | 日期:2026年3月19日


TLDR

EdgeCrafter 提出了一套面向边缘部署的紧凑 ViT 框架,通过任务特化蒸馏(task-specialized distillation)解决小型 ViT 在密集预测任务中表征不足的核心问题。在 COCO 数据集上,仅需 10M 参数的 ECDet-S 即可达到 51.7 AP 的检测精度;ECPose-X 以 74.8 AP 显著超越依赖 Objects365 预训练的 YOLO26Pose-X(71.6 AP),展示了紧凑 ViT 在边缘密集预测中的竞争力。


动机与发现

问题:紧凑 ViT 在边缘密集预测中的性能瓶颈

边缘设备部署密集预测模型(目标检测、实例分割、人体姿态估计)时,受计算和内存的严格限制。当前实践中,轻量级系统仍以 YOLO 等 CNN 架构为主,而紧凑 ViT 通常难以获得同等精度-效率权衡,即使使用大规模预训练也是如此。

关键发现

  1. 通用预训练对紧凑 ViT 不够用:实验发现,使用 ImageNet-21K 监督预训练初始化 ViT-Tiny,在密集预测任务上甚至比从头训练效果更差。这与 Ghiasi 等人(2021)和 Zoph 等人(2020)的观察一致。
  2. 任务特化蒸馏显著提升下游性能:将大型 DINOv3 预训练 ViT 先适配到目标检测,再作为教师进行特征对齐蒸馏,能将紧凑学生的下游性能提升到远超通用预训练的水平。
  3. 检测蒸馏表征可直接迁移到其他任务:同一个检测蒸馏后的 backbone 和 encoder,只需换轻量级任务头即可支持实例分割和姿态估计。

方法

图2: EdgeCrafter 流水线概览

图2: EdgeCrafter 流水线概览。阶段一:将预训练 DINOv3 backbone 适配到目标检测,构建任务特化教师。阶段二:通过特征对齐将检测导向的表征蒸馏到紧凑 ECViT 学生 backbone。阶段三:蒸馏后的学生用于实例化不同尺度的 ECDet 模型家族,并复用到实例分割和人体姿态估计。

核心思想

EdgeCrafter 以 ECDet 为核心检测模型,采用三阶段流水线:先将大模型适配为检测特化教师,再通过特征对齐蒸馏到紧凑学生 backbone,最后将同一 backbone 复用到密集预测的多个下游任务。

ECDet 架构

图3: ECDet 架构

图3: ECDet 架构。ECDet 由三个组件组成:蒸馏后的 ECViT backbone、编码器和解码器。backbone 将标准的大步长 patch embedding 替换为四层卷积 stem,输出单分辨率 token 表征。轻量级多尺度特征生成器聚合最后两个 transformer 块,通过插值和 1x1 投影生成 stride 8/16/32 的特征图。编码器精炼并融合这些特征,解码器执行基于集合的目标预测。

Backbone 设计(ECViT)

标准 ViT 的 patch embedding 使用单次大步长投影,会丢失对密集定位关键的精细空间信息。ECDet 用四层 3×3 卷积(stride 2)替代,逐步扩大感受野后再送入 transformer 块。这符合有效感受野分析中卷积堆叠保留中心集中感受野的特性。

多尺度特征生成

ViT 不自然产生层级特征金字塔。ECDet 取最后两个 transformer 块的输出 token,平均后 reshape 为 stride 16 的空间特征图,再通过双线性插值和 1×1 卷积投影生成 stride 8/16/32 的三级金字塔。该设计几乎不引入额外参数。

编码器

遵循 RT-DETR 的设计:先用 AIFI(注意力内尺度特征交互)精炼最低分辨率特征图扩大感受野,再用 CCFF(CNN 跨尺度特征融合)将高层语义传播到更细粒度尺度。

解码器

采用 DETR 集合预测范式,使用 4 层堆叠的自注意力 + 可变形交叉注意力 + FFN,操作 300 个学习到的对象查询。

训练目标

标准 DETR 风格的二部图匹配损失,包含分类损失(Varifocal Loss)和框回归损失(L1 + GIoU + DDF + FGL)。

关键创新点:

  • 用轻量卷积 stem 替代标准 patch embedding,更适合密集定位
  • 通过简单插值 + 线性投影构建多尺度特征,避免昂贵的 FPN 模块

任务特化蒸馏

检测特化教师

将预训练 DINOv3 ViT(通过添加与 ECDet 相同的检测头)适配为目标检测,使其表征与下游学生任务直接对齐。使用两个教师尺度:ECTeacher-S(来自 DINOv3-S)和 ECTeacher-B(来自 DINOv3-B)。

特征对齐蒸馏

学生 backbone 最后一个 transformer 块的 token 特征,通过单层线性适配器映射到教师特征维度,同时匹配教师最后两个块的特征:

$$\mathcal{L}_{\mathrm{distill}} = \sum_{l \in \{L-1, L\}} \|\phi(\mathbf{X}^S_L) - \mathbf{X}^T_l\|_2^2$$

使用最小化适配器将表征学习的负担放在学生 backbone 本身,而非允许高容量投影头吸收差异。

蒸馏设置

在下游任务适配之前先进行蒸馏。S 检测器从 ECTeacher-S 蒸馏,M/L/X 从 ECTeacher-B 蒸馏。蒸馏数据混合 ImageNet-1K 和 COCO 训练集图片,且教师先在 COCO 检测上微调以更贴近任务。

ECPose 与 ECInsSeg

ECPose:复用 ECDet 的蒸馏 backbone 和 encoder,将检测头替换为轻量姿态头。遵循 DETRpose 的结构化查询设计,每个人体实例使用 1 个 instance token + K 个关键点 token。训练损失为 Varifocal 分类 + 关键点回归 + OKS 损失。

ECInsSeg:在 ECDet 检测头基础上增加轻量级 mask head。每个检测框的 RoI 特征经过 mask 解码器生成分割掩码。


实验设定与结果

实验配置

  • 数据集:COCO 2017
  • 评估指标:AP, AP50, AP75, APS, APM, APL
  • 模型家族:ECDet-S/M/L/X,输入分辨率统一 640×640
  • 蒸馏数据:ImageNet-1K + COCO 训练集
  • 下游训练:仅使用 COCO 任务标注,无需 Objects365 等额外预训练数据

核心结果

目标检测

模型 参数量 GFLOPs AP AP50 AP75
YOLOv9-S 7M 26 46.8 61.8 48.6
YOLO11-S 9M 22 46.6 63.4 50.3
D-FINE-S 10M 25 48.5 65.6 52.6
DEIMv2-S 10M 26 50.9 68.4 55.1
ECDet-S 10M 26 51.7 69.4 55.8
YOLOv9-M 20M 76 51.4 67.2 54.6
YOLO26-M 20M 68 52.5 69.8 57.2
ECDet-M 18M 53 54.3 72.2 58.7
D-FINE-L* 31M 91 54.0 71.6 58.4
DEIMv2-L 32M 97 56.0 73.5 61.1
ECDet-L 31M 101 57.0 75.1 61.7
RF-DETR-X* 126M 300 58.6 77.4 63.8
YOLO26-X 55M 194 56.9 74.1 62.1
ECDet-X 49M 151 57.9 76.0 62.9

ECDet-S 在同等参数量下 AP 比 DEIMv2-S 高 0.8,比 YOLOv9-S 高 4.9。ECDet-X 以 49M 参数达到 RF-DETR-X(126M)近似的性能。

人体姿态估计

ECPose-X 达到 74.8 AP,显著超越 YOLO26Pose-X(71.6 AP)后者还使用了 Objects365 预训练。

实例分割

ECInsSeg 在参数量远少于 RF-DETR-Seg 的情况下达到可比性能。


启示和结论

主要贡献

  1. 识别了紧凑 ViT 在边缘密集预测中的关键瓶颈:通用监督预训练对小型模型往往不够,任务特化表征学习才是核心问题。
  2. 提出面向边缘的紧凑 ViT 设计:结合任务特化蒸馏、轻量卷积 stem 和简单多尺度特征构建,使 ViT backbone 在严格参数和 FLOP 预算下适合密集预测。
  3. 引入统一框架 EdgeCrafter:以 ECDet 为核心的检测蒸馏表征可有效迁移到实例分割和人体姿态估计,保持跨任务的精度-效率权衡。

理论意义

  • 大模型的通用预训练表征并不能自动传递到紧凑模型,任务特化蒸馏桥接了这一差距。
  • 检测作为表征学习阶段,学到的 backbone 可直接服务于其他密集预测任务,验证了检测在密集预测中的核心地位。

实践价值

  • 为边缘部署提供了比 YOLO 更具竞争力的 ViT 替代方案
  • 无需 Objects365 等大规模额外预训练数据,仅用 COCO 标注即可达到 SOTA 级别性能
  • 统一框架降低了同时部署检测、分割、姿态估计系统的工程复杂度

局限性

  • 延迟方面,ECDet-S 的 TensorRT 推理延迟(5.41ms)略高于 YOLOv10-S(2.52ms)和 YOLO26-S(2.59ms),CNN 方案在纯推理速度上仍有优势
  • 蒸馏阶段需要先训练大型教师模型,增加了整体训练成本

代码:https://intellindust-ai-lab.github.io/projects/EdgeCrafter/

4 Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

作者:Yuanyuan Gao, Hao Li, Yifei Liu, Xinhao Ji, Yuning Gong, Yuanjun Liao, Fangfu Liu, Manyuan Zhang, Yuchen Yang, Dan Xu, Xue Yang, Huaxi Huang, Hongjie Zhang, Ziwei Liu, Xiao Sun, Dingwen Zhang, Zhihang Zhong 机构:上海AI Lab、西北工业大学、上海交通大学、北京大学、南洋理工大学、北京航空航天大学、四川大学、清华大学、香港中文大学、复旦大学、香港科技大学 arXiv:2603.07660 | 日期:2026年3月8日

作者:Yuanyuan Gao, Hao Li, Yifei Liu, Xinhao Ji, Yuning Gong, Yuanjun Liao, Fangfu Liu, Manyuan Zhang, Yuchen Yang, Dan Xu, Xue Yang, Huaxi Huang, Hongjie Zhang, Ziwei Liu, Xiao Sun, Dingwen Zhang, Zhihang Zhong

机构:上海AI Lab、西北工业大学、上海交通大学、北京大学、南洋理工大学、北京航空航天大学、四川大学、清华大学、香港中文大学、复旦大学、香港科技大学

arXiv:2603.07660 | 日期:2026年3月8日


TLDR

Holi-Spatial是首个全自动、大规模、空间感知的多模态数据集构建管道,能将原始视频流转换为高保真3D几何结构和全面的空间标注,无需人工干预。基于此管道构建的Holi-Spatial-4M数据集包含12K优化的3DGS场景、130万2D掩码、32万3D边界框、120万3D定位实例和120万空间问答对。在ScanNet++上,微调Qwen3-VL后3D定位AP50提升15%,MMSI-Bench准确率提升7.9%。

图1: Holi-Spatial概览

图1: Holi-Spatial是首个全自动管道,能够将原始视频流转换为全面的3D空间标注,无需人工干预。相比现有方法,Holi-Spatial在ScanNet上多视图深度估计提升0.5 F1,3D检测AP50提升64%。基于此构建的Holi-Spatial-4M数据集有效赋能视觉语言模型,微调Qwen3-VL后在ScanNet++上3D定位AP50提升15%,MMSI-Bench准确率提升7.9%。


动机与发现

问题:空间智能数据的稀缺与不平衡

空间智能是让大模型理解真实3D世界的基础,但现有方法面临关键瓶颈:

  • 数据稀缺:现有空间数据集主要依赖少量人工标注的3D数据集(如ScanNet、ScanNet++),难以规模化扩展
  • 语义覆盖有限:ScanNet仅标注50个类别,无法覆盖真实世界的丰富语义
  • 领域偏差:窄范围数据集导致模型泛化能力受限

关键发现

  1. AI工具组合潜力:通过系统组合Depth-Anything-V3、SAM3、VLM等AI工具,可以构建自动化的空间标注引擎,甚至超越人工标注质量
  2. 多视图一致性:3DGS优化后的深度图比单目深度估计更具多视图一致性,能有效消除浮点噪声
  3. 2D到3D提升的挑战:直接从2D掩码反投影到3D会产生边界误差和深度不连续噪声,需要几何感知过滤策略
  4. 置信度与召回率的权衡:高置信度过滤提升精度但降低召回率,VLM Agent验证可恢复低置信度真阳性

方法

核心思想

Holi-Spatial采用三阶段流水线:几何优化→图像级感知→场景级精炼,将原始视频流转换为高质量3D标注。

图3: Holi-Spatial数据构建管道概览

图3: Holi-Spatial管道概览。框架分三阶段:(1)几何优化通过3DGS从视频流中提炼高保真3D结构;(2)图像级感知将2D VLM和SAM3预测提升为初始3D提议;(3)场景级精炼采用粗到细策略合并、验证和标注实例,生成密集高质量空间标注。最后基于Holi-Spatial-4M数据集直接微调Qwen-VL系列用于下游任务。

阶段1:几何优化

目标:从原始视频流中提炼高保真几何结构,作为空间标注的基础。

流程

  1. 使用Structure-from-Motion恢复精确的相机内参和外参
  2. 利用Depth-Anything-V3初始化密集点云
  3. 通过3DGS进行逐场景优化,集成几何正则化以确保多视图深度一致性
  4. 消除大尺度浮点噪声,产生干净一致的场景表示

关键创新点:

  • 结合表面重建3DGS方法的几何正则化,强制多视图深度一致性
  • 优化后的深度图可渲染出物理表面一致的高质量深度

阶段2:图像级感知

目标:从关键帧中提取空间一致的对象标签和高质量2D掩码。

流程

  1. 从视频流中均匀采样关键帧
  2. 使用Gemini3-Pro为每帧生成描述
  3. 维护动态类别标签内存,确保语义一致性
  4. 基于内存中的标签,使用SAM3进行开放词汇实例分割
  5. 将2D掩码反投影到3D空间,生成初始3D边界框提议

2D到3D提升的几何感知过滤:

  • 掩码腐蚀:缓解SAM3在物体轮廓附近的边界误差
  • 网格引导深度过滤:消除深度不连续导致的3D离群点
  • 地板对齐后处理:估计全局上轴,重新定向每个实例的垂直轴

关键创新点:

  • 动态类别标签内存确保跨帧语义一致性
  • 几何感知过滤策略同时处理2D边界误差和3D深度噪声

阶段3:场景级精炼

目标:通过粗到细策略从噪声初始提议中提炼高保真标注。

核心组件:

  1. 多视图合并与后处理
  2. 空间聚类合并冗余检测(IoU3D > 0.2)
  3. 保留最高置信度的源图像用于后续VLM标注
  4. 全局地板对齐,确保几何一致性
  5. 置信度过滤与精炼
  6. 三级决策规则:高置信度(≥0.9)保留,低置信度(<0.8)丢弃,中间带(0.8-0.9)交由VLM Agent验证
  7. VLM Agent配备图像放大和SAM3重新分割工具
  8. 平衡精度与召回率
  9. 语义标注生成
  10. 使用Qwen3-VL-30B为每个验证实例生成细粒度描述
  11. 基于预定义模板程序化生成空间QA对,覆盖3D定位、空间推理、属性识别等任务

关键创新点:

  • VLM Agent验证机制恢复被错误过滤的低置信度真阳性
  • 结合置信度过滤和Agent验证实现最佳精度-召回率平衡

实验设定与结果

实验配置

  • 数据集:ScanNet、ScanNet++、DL3DV-10K
  • 评估指标
  • 深度估计:F1-score
  • 2D分割:IoU
  • 3D检测:AP@25、AP@50
  • 3D定位:AP@15、AP@25、AP@50
  • 空间推理:准确率
  • 微调设置:使用120万空间QA对微调Qwen3-VL系列,1个epoch,batch size 1024,32块H800 GPU

核心结果

数据构建质量评估

方法 ScanNet ScanNet++ DL3DV
Depth F1 2D Seg IoU 3D Det AP50 Depth F1 2D Seg IoU 3D Det AP50 Depth F1 2D Seg IoU 3D Det AP50
SAM3 - 0.63 - - 0.50 - - 0.66 -
M3-Spatial 0.32 0.22 - 0.39 0.11 - 0.23 0.13 -
LLaVA-3D - - 6.86 - - 4.80 - - 4.11
Holi-Spatial 0.98 0.66 67.00 0.89 0.64 70.05 0.78 0.71 52.67

Holi-Spatial在所有数据集和指标上均显著优于基线方法:

  • ScanNet++深度F1:0.89 vs M3-Spatial 0.39(提升128%)
  • ScanNet++ 3D检测AP50:70.05 vs LLaVA-3D 4.80(提升1360%)

VLM微调效果

空间推理(MMSI-Bench / MindCube):

  • Qwen3-VL-2B:26.1 / 33.5 → 27.6 / 44.0(+1.5 / +10.5)
  • Qwen3-VL-8B:31.1 / 29.4 → 32.6 / 49.1(+1.5 / +19.7)

3D定位(ScanNet++):

  • Qwen3-VL-8B:AP50 13.50 → 27.98(+14.48,提升107%)
图6: Holi-Spatial-4M数据集统计

图6: Holi-Spatial-4M综合统计。(1)对象多样性:开放词汇类别的长尾分布词云。(2)数据集组成:内环显示来源场景(ScanNet、ScanNet++、DL3DV),外环详细说明超过400万生成的空间标注。(3)空间QA分类:125万空间QA对的分布,分为相机中心任务(如旋转、移动)和对象中心任务(如距离、方向)。


启示和结论

主要贡献

  1. 首个全自动空间标注管道:Holi-Spatial无需人工干预,将原始视频转换为高质量3D几何和全面的空间标注
  2. 大规模高质量数据集:Holi-Spatial-4M包含12K 3DGS场景、400万+标注,覆盖开放词汇语义
  3. 显著的下游任务提升:微调VLM后在3D定位和空间推理任务上取得大幅改进
  4. 统一的多任务框架:同时支持深度估计、2D分割、3D检测、3D定位、空间QA等多种空间任务

理论意义

  • 证明了通过系统组合现有AI工具可以构建超越人工标注的自动化数据引擎
  • 多视图几何一致性是高质量3D标注的关键
  • 几何与语义先验的协同作用可补偿单图像观察的不完整性

实践价值

  • 管道完全自动化,可随资源增加进一步扩展
  • 开放词汇标注覆盖真实世界的丰富语义
  • 为机器人操作、导航、场景编辑、增强现实等应用提供数据基础

局限性

  • 管道依赖多个上游组件和逐场景优化,计算成本较高
  • 在挑战性视频下(有限视角、运动模糊、严重遮挡、动态物体)可能退化
  • 开放词汇语义标注可能继承基础模型的偏差或错误
  • 需要进一步改进效率(如自适应早停、更好的置信度验证)

代码:https://github.com/Visionary-Laboratory/Holi-Spatial

项目主页:https://visionary-laboratory.github.io/holi-spatial/

5 Kimodo: Scaling Controllable Human Motion Generation

作者:Davis Rempe*, Mathis Petrovich*, Ye Yuan, Haotian Zhang, Xue Bin Peng, Yifeng Jiang, Tingwu Wang, Umar Iqbal, David Minor, Michael de Ruyter, Jiefeng Li, Chen Tessler, Edy Lim, Eugene Jeong, Sam Wu, Ehsan Hassani, Michael Huang, Jin-Bey Yu, Chaeyeon Chung, Lina Song, Olivier Dionne, Jan Kautz, Simon Yuen, Sanja Fidler 机构:NVIDIA arXiv:2603.15546 | 日期:2026年3月16日

作者:Davis Rempe, Mathis Petrovich, Ye Yuan, Haotian Zhang, Xue Bin Peng, Yifeng Jiang, Tingwu Wang, Umar Iqbal, David Minor, Michael de Ruyter, Jiefeng Li, Chen Tessler, Edy Lim, Eugene Jeong, Sam Wu, Ehsan Hassani, Michael Huang, Jin-Bey Yu, Chaeyeon Chung, Lina Song, Olivier Dionne, Jan Kautz, Simon Yuen, Sanja Fidler

机构:NVIDIA

arXiv:2603.15546 | 日期:2026年3月16日


TLDR

Kimodo 是 NVIDIA 提出的可控人体运动生成扩散模型,在 700 小时专业光学动作捕捉数据上训练,支持文本提示和多种运动学约束(全身关键帧、稀疏关节位置/旋转、2D 路径点、密集路径)。其两阶段去噪器架构将根运动与身体运动分解预测,在控制精度上达到全身关键帧 2.67cm 误差、末端执行器 3.09cm 位置误差,可直接用于机器人演示数据生成。

图1: 可控运动生成

图1: 可控运动生成。Kimodo 通过文本提示结合广泛的运动学约束套件支持灵活直观的运动生成。通过在 700 小时光学动作捕捉数据上训练,模型在大量行为上实现了精确的控制精度。


动机与发现

问题:高质量可控人体运动数据获取困难

机器人、仿真和娱乐领域对高质量人体运动数据需求日益增长。传统方法(手动动画、光学动捕、遥操作、视频重建)各有缺陷:手动动画耗时且需专业知识,光学动捕昂贵且设备要求高,遥操作生成动作不自然,视频重建精度不足。现有生成模型受限于公开数据集规模小(如 HumanML3D 仅 30 小时),导致运动生成质量、控制精度和泛化能力受限。

关键发现

  1. 数据规模至关重要:使用 700 小时专业动捕数据训练,显著提升约束跟随能力和运动质量。当数据量降至 10%(约 70 小时,与常见数据集规模相当)时,脚部滑动和约束误差明显增加。
  2. 两阶段分解架构有效:将根运动和身体运动分开预测(两阶段 Transformer),比单阶段架构显著减少脚部滑动(从 7.59 cm/s 降至 3.87 cm/s)。
  3. 平滑根表示优于直接骨盆投影:使用平滑根轨迹而非直接骨盆投影,能更好地模拟动画工具中的平滑曲线,减少脚部滑动。
  4. 规模定律成立:数据规模、模型规模和批大小三个维度的扩展均能提升性能,其中数据规模主要改善约束跟随,模型规模和批大小主要改善文本跟随和运动质量。

方法

核心思想

Kimodo 采用显式运动扩散模型,通过精心设计的运动表示和两阶段 Transformer 去噪器,在保持运动生成质量的同时实现精确的运动学约束控制。

运动表示

每个姿态由以下特征向量表示:

  • 平滑全局根位置 𝐫ᵖ:对骨盆位置的水平分量(x,z)进行强平滑,保持 y 高度不变
  • 全局根朝向 𝐫ᵃ:使用 [cos(ψ), sin(ψ)] 表示
  • 关节位置 𝐣ᵖ:水平分量相对于平滑根位置,y 高度为全局值(不相对于根朝向规范化)
  • 全局关节速度 𝐣ᵛ:从全局关节位置计算
  • 全局关节角度 𝐣ᵃ:使用 6D 旋转表示
  • 脚部接触标志 𝐟:4 个布尔值

设计要点:

  • 采用全局表示,支持稀疏约束的直接植入(imputation)
  • 关节位置不相对于根朝向规范化,避免翻转动作导致的表示不连续
  • 全局关节旋转表示支持世界空间中的旋转约束
  • 平滑根轨迹模拟动画工具中的平滑曲线

两阶段 Transformer 去噪器

图9: 去噪器架构

图9: 去噪器架构。(左) Kimodo 根据噪声运动、姿态约束和文本嵌入预测干净运动。(右) 两阶段去噪器将根运动和身体运动分解预测。

架构设计:

  1. 根去噪器(第一阶段):预测全局根运动 𝐫̂⁰ᵍˡᵒᵇ,输入为完整噪声运动
  2. 身体去噪器(第二阶段):预测身体运动 𝐛̂⁰,输入为局部根表示 + 身体特征

约束条件处理:

  • 约束通过直接植入(imputation)覆盖噪声运动输入
  • 控制掩码与运动特征拼接作为最终输入

条件信号:

  • 文本嵌入:使用 LLM2Vec(4096维),优于 CLIP 和 T5
  • 初始朝向 token 𝐜ᵈⁱʳ
  • 额外的 "register" token(49 个全零 token)增强表示能力

关键创新点:

  • 两阶段交错去噪:每步去噪同时预测根和身体运动(不同于先前方法的完全顺序处理)
  • 局部根表示用于第二阶段:使用根角速度、平面平移速度和绝对高度,提供更好的不变性
  • 全局旋转表示:支持世界空间旋转约束,训练时随机化初始朝向
  • 额外 register token:增强模型表示能力,改善文本跟随和运动质量

训练策略

双阶段训练课程:

  • 阶段 1(前 500k 步):纯文本到运动生成训练
  • 阶段 2(后 500k 步):混合文本和运动学约束训练,约束模式包括全身关键帧、末端执行器、2D 路径等

数据增强:

  • 文本:使用 Qwen3-32B 进行释义,生成一致的提示结构
  • 运动:随机拼接运动片段,使用扩散模型生成过渡动作

训练细节:

  • DDPM 框架,1000 扩散步
  • Adam-atan2 优化器,学习率 2e-5
  • EMA 衰减 0.995
  • 最佳配置:2048 批大小,16×A100 GPU

运动生成

  • 使用 DDIM 推理,默认 100 去噪步
  • 分解式无分类器指导:分别控制文本和约束条件的影响权重
  • 多提示序列:通过重叠区域添加全身关键帧约束实现平滑过渡
  • 后处理:脚部锁定 + IK 清理滑动,优化确保精确命中约束

实验设定与结果

实验配置

  • 数据集:Bones Rigplay(700 小时专业动捕数据,170 名受试者,27 关节骨架)
  • 评估指标
  • 文本跟随:Top-3 R-precision(R@3),使用 TMR 嵌入模型
  • 运动质量:FID(基于 TMR)
  • 脚部滑动:静态接触帧中脚关节平均速度
  • 约束精度:约束帧处关节位置/旋转误差

核心结果

完整模型 vs 基线对比:

方法 R@3↑ FID↓ 滑动(cm/s)↓ 全身Pos(cm)↓ 末端Pos(cm)↓ 末端Rot(deg)↓ 2D根Pos(cm)↓
Ground Truth 75.6 0.0 2.21 - - - -
完整模型 71.9 1.85 3.87 2.67 3.09 4.18 2.90
单阶段架构 71.5 1.65 7.59 8.37 10.19 5.19 7.74
第二阶段全局 70.3 1.87 4.17 2.97 3.39 5.67 3.25
无平滑根 71.6 1.75 4.39 2.68 3.19 3.93 3.21
无额外token 70.9 1.95 4.28 2.40 2.59 5.55 2.85
无训练课程 71.3 1.84 3.92 5.80 6.59 4.34 5.71

缩放分析:

  • 数据规模:从 10% 到 100% 数据,脚部滑动从 5.28 降至 4.23 cm/s,全身约束误差从 4.60 降至 2.77 cm
  • 模型规模:从 S(56M) 到 L(282M),R@3 从 64.0 提升至 71.9,FID 从 3.10 降至 1.85
  • 批大小:从 4 GPU 到 16 GPU,R@3 从 69.4 提升至 73.6,FID 从 2.01 降至 1.61

启示和结论

主要贡献

  1. 大规模高质量数据训练:首次在 700 小时专业光学动捕数据上训练运动扩散模型,证明数据规模对控制精度的关键作用
  2. 两阶段分解去噪器:将根运动与身体运动分开预测,交错去噪,显著减少脚部滑动等常见伪影
  3. 全面的运动学约束支持:通过全局运动表示和直接植入,支持全身关键帧、稀疏关节位置/旋转、2D 路径等多种约束,无需额外 ControlNet 微调或测试时优化
  4. 机器人应用验证:成功应用于 Unitree G1 机器人演示数据生成,通过重定向可直接用于人形机器人控制

理论意义

  • 证明了运动生成领域的规模定律:数据规模、模型规模和计算规模均能提升性能
  • 全局运动表示相比局部表示在稀疏约束控制上具有优势
  • 两阶段交错去噪优于完全顺序去噪

实践价值

  • 提供了开源模型(SOMA 人体骨架和 Unitree G1 机器人版本)
  • 交互式运动编辑界面,降低动画制作门槛
  • 可快速生成机器人演示数据(几秒内完成),替代昂贵的遥操作

局限性

  • 模型为"离线"设计,单次生成需 2-5 秒,不适合实时控制
  • 仅训练在动捕数据上,未利用互联网视频数据进行扩展
  • 缺乏场景和物体交互能力
  • 训练序列最大长度限制为 10 秒

代码:https://github.com/nv-tlabs/kimodo

项目页面:https://research.nvidia.com/labs/sil/projects/kimodo/

6 OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams

作者:Yibin Yan, Jilan Xu, Shangzhe Di, Haoning Wu, Weidi Xie 机构:上海交通大学人工智能学院、上海创新研究院、牛津大学VGG arXiv:2603.12265 | 日期:2026年3月12日

作者:Yibin Yan, Jilan Xu, Shangzhe Di, Haoning Wu, Weidi Xie

机构:上海交通大学人工智能学院、上海创新研究院、牛津大学VGG

arXiv:2603.12265 | 日期:2026年3月12日


TLDR

OmniStream提出了一种统一的流式视觉骨干网络,通过引入因果时空注意力和3D旋转位置编码(3D-RoPE),将预训练的图像ViT转化为在线流式模型。该模型在29个数据集上进行多任务预训练,即使骨干网络完全冻结,也能在图像/视频感知、流式几何重建、视频空间推理和机器人操作等任务上取得与专门专家模型相当的性能。

图1: OmniStream支持的任务范围和性能对比

图1: 左:OmniStream支持广泛的任务,包括2D/3D感知、视觉语言理解和具身机器人操作。右:冻结的单骨干网络特征与领先的领域专家模型相比,实现了高度竞争或更优的性能。


动机与发现

问题:如何构建通用流式视觉表示?

当前视觉基础模型呈现碎片化状态:

  • 图像编码器(DINO、SigLIP)专注于静态语义
  • 视频模型(V-JEPA、VideoMAE)处理离线时序
  • 几何专家(DepthAnything、VGGT)关注空间结构

这些模型难以在单一骨干网络中统一静态语义、时序动态和3D结构,尤其是在在线因果场景下。

关键发现

  1. 因果视频建模对捕捉动态运动至关重要:移除视频SSL导致SSv2下降6.3%,CALVIN下降0.38
  2. 显式几何预训练是具身AI的前提:禁用3D重建导致VSI-Bench下降4.8%,CALVIN下降0.46
  3. 早期视觉语言对齐防止VLM集成时的灾难性失败:移除字幕任务导致VideoMME下降9.1%,VSI-Bench下降12.4%
  4. 多任务协同效应远超简单叠加:语义、动态和几何目标相互增强,形成鲁棒表示

方法

图2: OmniStream整体框架

图2: OmniStream整体框架。配备3D-RoPE和因果时空注意力,通过多任务框架训练统一骨干网络,耦合静态和时序表示学习、流式几何重建和视觉语言对齐。

核心思想

将DINOv3图像ViT转化为流式视觉骨干网络:

  1. 因果时空注意力:实现严格时序因果性,支持KV-cache逐帧在线推理
  2. 3D旋转位置编码(3D-RoPE):将2D RoPE扩展到时空域,采用2:3:3的(t,y,x)分配策略

1. 问题形式化

给定连续视频流 V^T = {I_1, I_2, ..., I_T},骨干网络在时间步t处理当前帧和历史上下文,产生复合输出状态O_t,严格约束O_t不依赖未来帧。

2. 流式视觉骨干网络

架构修改:

  • 输入:每帧分割为p×p不重叠patch,添加特殊token([CLS]、[vision_registers]、[CAM])
  • 因果时空注意力:应用因果时序掩码,token在时间t只能关注时间≤t的token
  • KV-cache机制:增量推理,复用缓存的K/V,避免重复计算

3D-RoPE设计:

  • 维度分配:时间:高度:宽度 = 2:3:3
  • 时序分量交错到原始2D RoPE中
  • 应用RoPE-box jittering提高鲁棒性

3. 统一多任务学习目标

总损失函数:


L_total = λ_ssl·L_ssl + λ_geo·L_geo + λ_cap·L_cap

其中 λ_ssl=0.1, λ_geo=λ_cap=1

目标组成:

  1. 静态和时序表示学习(L_ssl)
  2. DINO损失:全局语义一致性
  3. iBOT损失:patch级判别特征
  4. KoLeo正则化:特征空间均匀分布
  5. Gram锚定:训练过程中patch级特征一致性
  6. 流式几何重建(L_geo)
  7. 深度头(dual-DPT):预测深度图D̂和光线图R̂
  8. 相机头(轻量MLP):预测相机姿态ĝ
  9. 损失组成:L_depth + L_ray + L_points + L_camera
  10. 深度预测使用置信度加权的L1回归
  11. 视觉语言对齐(L_cap)
  12. 附加MLP投影器和轻量自回归语言解码器(Qwen3-0.6B)
  13. 在字幕、OCR、视觉接地任务上训练
  14. 梯度回传到视觉骨干,注入细粒度语义监督

关键创新点:

  • 将图像视为T=1的退化流,统一图像和视频目标
  • 200M帧数据预训练(29个数据集),包括图像、视频、3D/4D场景和字幕
  • 因果掩码设计使每个样本提供1到T帧的不同时序上下文监督

4. 下游应用统一表示

评估范式:骨干网络严格冻结,仅训练任务特定模块

  • 感知(图像/视频):在冻结特征上训练线性/注意力探针
  • 推理(VLM):MLP投影器将视觉token映射到语言嵌入空间,LLM生成文本
  • 动作(VLA):在LLM输出上附加MLP动作专家,预测机器人动作

实验设定与结果

实验配置

  • 骨干网络:DINOv3 ViT-L(400M参数)
  • 训练数据:约200M帧,29个数据集
  • 训练设置
  • 64× NVIDIA H200 GPU
  • 两阶段训练:Stage-1(224×224,60K步)、Stage-2(512×512,120K步)
  • Adam优化器,峰值学习率1×10^-4,4K步warmup+余弦退火
  • 多帧序列长度T=16

核心结果

图像和视频感知(骨干冻结):

基准 OmniStream DINOv3-L V-JEPA2-L
ImageNet(分类) 84.7% 86.7% -
NYUv2(深度) 0.377 0.377 -
ADE20K(分割) 49.1% 51.5% -
SSv2(动作) 68.5% 54.0% 73.7%
K400(动作) 85.7% 83.6% 85.1%
DAVIS'17(VOS) 71.6 73.2 44.2

流式几何重建(vs CUT3R):

方法 参数 Sintel深度↓ BONN深度↓ KITTI深度↓ ScanNet姿态↓
CUT3R 600M 0.421 0.078 0.118 0.099
OmniStream 400M 0.314 0.072 0.136 0.076

VLM空间推理(VSI-Bench):

方法 平均分 绝对距离 相对距离 路线规划
LLaVA-Video-7B 35.6 14.0 42.4 34.0
SpaceMind 69.6 61.4 88.4 44.3
OmniStream-7B 70.6 55.7 82.1 45.4

VLA机器人操作(冻结视觉):

方法 CALVIN↑ Simpler-Bridge↑
Qwen2.5VL-7B 2.905 18.5%
LLaVA-Video-7B 2.898 30.2%
OmniStream-7B 3.885 45.8%

消融研究

配置 SSv2 DAVIS'17 ImageNet NYUv2 VSI-Bench CALVIN
完整模型 69.3% 71.6 85.2% 0.379 57.3% 3.80
w/o VideoSSL 63.0% 67.7 85.4% 0.420 57.9% 3.42
w/o 3D Geometry 68.4% 69.7 85.0% 0.471 52.5% 3.34
w/o Captioning 67.4% 71.0 84.4% 0.395 44.9% 2.38

计算效率(KV-cache vs 全重计算):

上下文长度T 16 32 64 128 256 512
全重计算延迟 0.125s 0.329s 0.998s OOM OOM OOM
OmniStream延迟 0.042s 0.057s 0.067s 0.115s 0.216s 0.414s
图3: Sintel视频深度重建的定性结果

图3: Sintel视频深度重建的定性结果。我们的模型在长序列上保持时序一致性。


启示和结论

主要贡献

  1. 统一流式视觉骨干:首次将因果时空注意力和3D-RoPE结合,在单一骨干中统一静态语义、时序动态和3D几何
  2. 多任务协同预训练:在29个数据集上耦合SSL、几何重建和语言对齐,证明多目标协同效应远超简单叠加
  3. 严格冻结的通用性:骨干冻结时在感知、推理、动作任务上均取得竞争性性能
  4. 高效流式推理:KV-cache实现O(T)时序复杂度,支持110帧零样本长度外推

理论意义

  • 证明了单一视觉骨干可同时支持语义、空间和时序推理
  • 早期视觉语言对齐对VLM集成至关重要
  • 显式几何编码是具身AI的必要条件

实践价值

  • 降低多任务部署的计算和存储开销
  • 支持实时流式处理,适用于机器人、AR/VR等场景
  • 统一表示简化下游任务集成

局限性

  • 未在所有基准上超越专门的最先进方法
  • 模型规模扩展作为未来方向
  • 几何重建性能在某些数据集上略逊于专门3D专家

代码:https://github.com/Go2Heart/OmniStream

项目页面:https://go2heart.github.io/omnistream

7 Prompt-Free Universal Region Proposal Network

作者:Qihong Tang, Changhan Liu, Shaofeng Zhang, Wenbin Li, Qi Fan, Yang Gao 机构:南京大学,中国科学技术大学 arXiv:2603.17554 | 日期:2026年3月18日

作者:Qihong Tang, Changhan Liu, Shaofeng Zhang, Wenbin Li, Qi Fan, Yang Gao

机构:南京大学,中国科学技术大学

arXiv:2603.17554 | 日期:2026年3月18日


TLDR

本文提出了一种无需外部提示的通用区域建议网络(PF-RPN),可在跨域场景中零样本识别任意潜在物体。核心创新包括稀疏图像感知适配器、级联自提示机制和中心性引导查询选择,仅需5% COCO数据训练,在19个跨域数据集上比现有方法提升6.0-7.5 AR。

图1: 现有方法与PF-RPN的对比

图1: 现有视觉/文本提示方法通常依赖预定义类别或示例图像来定位物体,而无提示方法需要生成文本描述,带来较大延迟。本文PF-RPN无需任何外部提示,仅利用视觉特征生成高质量建议框。


动机与发现

问题:如何在无外部提示下识别任意物体?

现有方法存在明显局限:

  • 依赖文本/视觉提示:需要预定义类别或示例图像,在工业缺陷检测、水下目标检测等实际场景中难以获取
  • 计算成本高:基于生成式VLM的无提示方法引入巨大内存和延迟开销
  • 泛化能力受限:现有RPN方法在未见域上表现不佳

关键发现

  1. 视觉特征比文本更适合定位:用可学习嵌入替代文本嵌入,能更好地捕获物体视觉特征
  2. 物体内部特征优于可学习嵌入:物体内部特征具有更强的定位能力,可用于迭代检索其他物体
  3. 中心查询生成更精确的边界框:靠近物体中心的查询比边界查询产生更准确的建议框

方法

核心思想

PF-RPN构建在强大的OVD模型基础上,通过可学习视觉嵌入聚合信息,消除手动提示需求。核心是让模型"自问自答":先用初始嵌入定位显著物体,再用已定位物体的特征检索剩余物体。

图2: PF-RPN整体架构

图2: PF-RPN整体架构,包含三个核心组件:(1)稀疏图像感知适配器(SIA)通过路由机制和交叉注意力自适应整合多级特征;(2)级联自提示(CSP)通过多级视觉特征迭代精炼嵌入;(3)中心性引导查询选择(CG-QS)基于中心性分数解码最终预测。

稀疏图像感知适配器(SIA)

设计原理:不同尺度的物体对应不同的特征级别,浅层特征利于小物体,深层特征利于大物体。

工作机制

  1. 对多级特征图进行全局平均池化,得到紧凑特征 $\bar{F}^i_I$
  2. MoE路由器预测各特征级别的重要性权重 $w_i = \text{Router}(\bar{F}^i_I)$
  3. 选择权重最高的top-k个特征级别(k=2)
  4. 可学习嵌入 $F_T$ 作为查询,选中的特征作为键值对进行交叉注意力

公式

$$\tilde{F}^T = \sum_{j=1}^{k} \tilde{w}_{\sigma(j)} \cdot \text{Attn}(F_T, [\bar{F}^I_{\sigma(j)}, F^I_{\sigma(j)}])$$

关键创新点:

  • 使用MoE路由器稀疏选择特征级别,避免冗余信息
  • 同时利用全局和局部特征,融合粗粒度和细粒度信息
  • 将文本嵌入替换为图像派生表示,桥接模态差异

级联自提示(CSP)

设计原理:单步适配不足,物体内部特征能更好地定位其他物体。

工作机制

  1. 从深层到浅层迭代:先聚合高层语义,再整合细节结构
  2. 在每个级别生成相似性掩码:$M_i = \mathbb{1}(\cos(\tilde{F}^T_{i-1}, F^I_i) > \delta)$(δ=0.3)
  3. 通过掩码平均池化更新嵌入:$\tilde{F}^T_i = \tilde{F}^T_{i-1} + \text{MAP}(M_i, F^I_i)$
  4. 设置迭代次数为3次,在精度和效率间取得平衡

关键创新点:

  • 自提示机制:无需外部提示,用已激活的视觉特征指导嵌入精炼
  • 深层到浅层级联:先获取语义一致性,再保留结构细节
  • 渐进式检索:逐步扩展物体一致激活,抑制背景噪声
图3: CSP迭代效果

图3: 级联自提示模块不同迭代次数的区域选择可视化。绿色点表示当前迭代选中的物体区域。随着迭代次数增加,模型逐步选择更多物体区域。

中心性引导查询选择(CG-QS)

设计原理:靠近物体中心的查询产生更准确的边界框。

工作机制

  1. 轻量级MLP预测每个查询的中心性分数 $g_i$
  2. 计算查询到边界框四边的距离,推导中心性监督:$c_i = \sqrt{\frac{\min(l,r)}{\max(l,r)} \times \frac{\min(t,b)}{\max(t,b)}}$
  3. 训练预测分数匹配监督,使用L1损失:$\mathcal{L}_{ctr} = \sum_{i=1}^{N} \|g_i - c_i\|_1$
  4. 训练和推理时,组合中心性分数与分类分数进行查询选择

关键创新点:

  • 中心性先验:显式建模查询位置与边界框质量的关系
  • 双重评分:结合分类置信度和空间位置信息
  • 降低误检:优先选择中心区域查询,减少边界误差
图4: SIA更新效果

图4: 稀疏图像感知适配器效果。每组热力图(上:更新前,下:更新后)对应同一图像。更新后,可学习嵌入在语义相关区域响应更强。


实验设定与结果

实验配置

  • 基础检测器:Grounding DINO + Swin-B骨干网络
  • 训练数据:5% COCO(80类)+ 5% ImageNet(1000类)
  • 评估基准:CD-FSOD(6个跨域数据集)+ ODinW13(13个数据集)
  • 评估指标:平均召回率AR@100/300/900
  • 硬件:4块NVIDIA RTX 4090 GPU

核心结果

与OVD、RPN和MLLM的对比

方法 无提示 CD-FSOD AR100 CD-FSOD AR900 ODinW13 AR100 ODinW13 AR900
GDINO† 52.9 54.7 72.1 74.0
GDINO‡ 54.7 61.6 69.1 72.4
YOLOE-v8-L† 44.4 47.1 66.6 68.3
GenerateU 47.7 55.7 67.3 72.2
Cascade RPN 45.8 56.9 60.9 70.2
PF-RPN 60.7 68.2 76.5 79.8

关键数据

  • CD-FSOD:比GDINO提升7.8/11.8/13.5 AR@100/300/900
  • ODinW13:比GDINO提升4.4/5.2/5.8 AR@100/300/900
  • 比YOLOE提升16.3/19.1/21.1 AR
  • 比Qwen2.5-VL-7B提升40.6/45.2/48.1 AR

模块消融实验

SIA CSP CG-QS AR100 AR900
52.9 54.7
57.8 66.7
58.1 65.8
54.4 60.2
60.7 68.2

所有模块组合达到最佳性能,验证了模块间的互补性。

数据消融实验:从1%到5% COCO数据带来显著提升(+3.6 AR100),5%到10%提升有限(+0.2),加入ImageNet分类数据进一步提升泛化能力。

延迟分析:CSP迭代从1次增加到3次,性能持续提升,推理时间仅增加约4.6ms。

图5: CG-QS效果

图5: 中心性引导查询选择效果。应用CG-QS后,模型倾向于选择靠近物体中心的查询,生成更准确的建议框。


启示和结论

主要贡献

  1. 无提示通用RPN:首次提出无需任何外部提示的区域建议网络,可在任意未见域上识别潜在物体
  2. 视觉驱动的物体发现:用可学习视觉嵌入替代文本嵌入,解决传统RPN的泛化瓶颈
  3. 高效自迭代检索:级联自提示机制用已发现物体的特征迭代检索其他物体,形成正向循环
  4. 中心性先验:引入中心性评分网络,优先选择高质量查询,减少边界误检

理论意义

  • 模态解耦:证明视觉特征可以独立于文本进行物体发现,为多模态模型提供新思路
  • 稀疏特征选择:MoE机制在特征级别实现自适应选择,避免冗余信息干扰
  • 自提示范式:迭代精炼机制为无监督/弱监督物体发现提供可扩展方案

实践价值

  • 低数据训练:仅需5%标注数据即可训练,大幅降低数据收集成本
  • 即插即用:可无缝集成到DE-ViT、CD-ViTO等现有检测器,提升3.7-5.5 AP
  • 低延迟部署:移除文本编码器,推理速度比GDINO更快(4.6 vs 3.3 FPS),VRAM仅0.5G
  • 跨域泛化:无需微调即可应用于水下检测、工业缺陷、遥感等19个数据集

局限性

  • 仍依赖一定量的检测数据训练,完全无监督场景未验证
  • CSP迭代次数固定为3次,动态迭代策略有待探索
  • 对极度模糊或遮挡的物体,自提示机制可能失效

代码:https://github.com/tangqh03/PF-RPN

8 Self-Distillation of Hidden Layers for Self-Supervised Representation Learning

作者:Scott C. Lowe, Anthony Fuller, Sageev Oore, Evan Shelhamer, Graham W. Taylor 机构:Vector Institute, Carleton University, Dalhousie University, University of British Columbia, University of Guelph arXiv:2603.15553 | 日期:2026年3月16日

作者:Scott C. Lowe, Anthony Fuller, Sageev Oore, Evan Shelhamer, Graham W. Taylor

机构:Vector Institute, Carleton University, Dalhousie University, University of British Columbia, University of Guelph

arXiv:2603.15553 | 日期:2026年3月16日


TLDR

本文提出 Bootleg 方法,通过预测教师网络中多个隐藏层的潜在表示来进行自监督学习,桥接了生成式方法(MAE)和预测式方法(I-JEPA)之间的鸿沟。在 ImageNet-1K 分类任务上,Bootleg 比 I-JEPA 高出 10% 以上的准确率,在语义分割任务上也取得了显著提升。


动机与发现

问题:

当前自监督学习方法存在两难选择:

  • 生成式方法(如 MAE):重建原始像素,计算效率低,且不优先学习高层语义特征
  • 预测式方法(如 I-JEPA):预测最终层嵌入,但依赖非平稳目标导致训练不稳定

关键发现

  1. 隐藏层目标优于最终层:预测教师网络中间层的表示比仅预测最终层效果更好
  2. 多层目标组合更优:同时预测多个隐藏层的组合优于单个隐藏层
  3. 掩码策略决定稳定性:随机掩码会导致训练崩溃,而结构化掩码(如 I-JEPA 的矩形掩码)能稳定训练
  4. 空间连续性很重要:较大的连续掩码区域比小块随机掩码效果更好
图1: Bootleg 多层自蒸馏方法

图1: Bootleg 多层自蒸馏方法。教师编码器(蓝色)、学生编码器(绿色)和预测器(橙色)都是 ViT。教师编码器是学生编码器的 EMA,处理完整图像。学生编码器只看到图像的子集,预测器需要预测教师编码器中多个层的表示。


方法

核心思想

Bootleg 通过预测教师网络中多个隐藏层的表示来学习多层次的抽象特征。与 I-JEPA 仅预测最终层不同,Bootleg 同时预测早期、中期和深层的表示,迫使模型捕获不同抽象级别的特征。

掩码策略

基于 I-JEPA 的改进实现:

  • 将图像分割成 P×P 的补丁
  • 随机选择 4 个矩形区域进行掩码
  • 掩码区域可以重叠
  • 未掩码的补丁作为学生编码器的输入

关键创新点:

  • 使用结构化矩形掩码而非随机掩码,提高训练稳定性
  • 掩码区域之间通过自注意力交互,但不同掩码区域之间无交互

目标层选择

从教师编码器的多个层提取目标:

  • 目标层分布:均匀分布在编码器深度上,每 4 个块取一个(如第 1、4、8、12 块)
  • 标准化:对每个目标位置的嵌入进行 z-score 标准化
  • 拼接:将所有目标层的表示拼接成单一目标向量(长度为 |L|×D)

实现细节:

  • 使用 EMA 教师-学生架构,教师权重是学生权重的指数移动平均
  • 教师编码器处理完整图像
  • 学生编码器处理未掩码的补丁,外加 5 个全局令牌(1 个 CLS + 4 个 register)

预测器架构

  • 使用与 MAE 相同的 ViT 预测器架构
  • 最终线性层更宽,以投影到增加的目标元素数量
  • 4 个预测器 register 令牌用于全局处理
  • 四个掩码区域并行处理,各自内部有自注意力交互

实验设定与结果

实验配置

  • 预训练数据:ImageNet-1K(IN-1k)
  • 模型架构:ViT-S/16、ViT-B/16、ViT-L/16
  • 图像尺寸:224×224,补丁大小 16×16
  • 训练轮数:600 epochs(基线方法使用 600-1600 epochs)
  • 评估方法:冻结编码器 + 探针(线性探针、注意力探针)

核心结果

ImageNet-1K 分类(冻结探针)

方法 ViT-S (X-Blk) ViT-B (X-Blk) ViT-L (X-Blk)
MAE 66.4% 76.0% 79.5%
I-JEPA 61.9% 72.4% 72.3%
data2vec 2.0 62.2% 73.7% 80.0%
Bootleg 75.3% 79.2% 80.6%

iNaturalist-21 分类(冻结探针)

方法 ViT-S (X-Blk) ViT-B (X-Blk) ViT-L (X-Blk)
I-JEPA 48.4% 63.0% 61.3%
Bootleg 67.4% 74.2% 77.1%

ADE20K 语义分割(冻结编码器)

方法 ViT-S (Lin) ViT-B (Lin) ViT-L (Lin)
I-JEPA 11.8% 19.3% 21.8%
Bootleg 26.6% 30.9% 34.7%

Cityscapes 语义分割(冻结编码器)

方法 ViT-S (Lin) ViT-B (Lin) ViT-L (Lin)
I-JEPA 19.8% 24.3% 25.5%
Bootleg 32.1% 35.9% 39.1%

启示和结论

主要贡献

  1. 提出隐藏层自蒸馏方法:首次系统性地探索预测多个隐藏层表示的自监督学习,发现中间层目标比最终层更有效
  2. 改进训练稳定性:通过结构化掩码和多层次目标解决了自蒸馏方法的训练不稳定问题
  3. 统一生成式与预测式方法:Bootleg 桥接了 MAE(像素级)和 I-JEPA(嵌入级)之间的差距
  4. 显著的性能提升:在所有评估任务上大幅超越现有方法,特别是在小模型上提升超过 10%

理论意义

  • 验证了"最深层不一定最好"的假设:中间层的特征对许多下游任务更有用
  • 信息瓶颈视角:通过增加目标层数量提高压缩比,迫使模型更好地理解输入
  • 与大脑预测编码模型的类比:多层次预测类似于大脑中不同层级的视觉处理

实践价值

  • 计算效率:单视角方法,不需要大批量训练,在单个消费级 GPU 上即可预训练
  • 通用性强:不需要特定的数据增强策略,易于迁移到其他领域(视频、音频、医学图像等)
  • 即插即用:隐藏层自蒸馏可以与其他掩码方法(MAE、CrossMAE、data2vec)结合使用

局限性

  • 在合成图像(如 Clevr、dSprites)上的表现不如自然图像
  • 预测器需要更宽的最终层来处理多个目标,增加了少量计算开销
  • 最佳目标层选择仍需要一定的经验(论文建议每 4 个块取一个)

代码:论文中提到代码将通过 GitHub 发布,但目前尚未公开

9 V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning

作者:Lorenzo Mur-Labadia, Matthew Muckley, Amir Bar, Mido Assran, Koustuv Sinha, Mike Rabbat, Yann LeCun, Nicolas Ballas, Adrien Bardes 机构:FAIR at Meta, Universidad de Zaragoza arXiv:2603.14482 | 日期:2026年3月17日

作者:Lorenzo Mur-Labadia, Matthew Muckley, Amir Bar, Mido Assran, Koustuv Sinha, Mike Rabbat, Yann LeCun, Nicolas Ballas, Adrien Bardes

机构:FAIR at Meta, Universidad de Zaragoza

arXiv:2603.14482 | 日期:2026年3月17日


TLDR

V-JEPA 2.1 是一种自监督视频表征学习方法,通过四个关键改进解决了视频自监督学习中密集特征质量差的问题。核心创新在于将预测损失扩展到所有token(包括可见和被遮蔽的patch),而非仅监督被遮蔽区域。该方法在多个基准测试中取得了SOTA结果:Ego4D短期物体交互预测达7.71 mAP,EPIC-KITCHENS动作预测达40.8 Recall@5,机器人抓取成功率比V-JEPA 2 AC提升20%。

图1: V-JEPA 2.1在密集和全局预测任务上的性能

图1: V-JEPA 2.1 ViT-G在密集和全局预测任务上的性能。显示了V-JEPA 2.1相对于前代V-JEPA 2 ViT-g模型的相对改进。


动机与发现

问题:视频自监督学习中的密集特征质量问题

V-JEPA系列模型在全局视频理解、动作预测和规划方面表现出色,但其学习到的表征在密集视觉任务(如语义分割、深度估计)上表现有限。PCA可视化显示特征图存在噪声且局部空间结构破碎,ADE20K语义分割仅22.2 mIoU,NYUv2深度估计RMSE为0.682。

关键发现

  1. 监督缺失假说:V-JEPA 2仅对被遮蔽token应用预测损失,未遮蔽的上下文token缺乏监督,导致模型将计算资源用于聚合全局信息而非编码局部结构。
  2. 上下文监督有效性:对上下文token引入监督损失ℒctx后,特征图显示出清晰的局部结构,ADE20K性能从22.2提升至33.9 mIoU。
  3. 权衡问题:简单的上下文监督会损害全局理解能力(SSv2从72.8降至62.5),需要精细的权重设计。

方法

核心思想

V-JEPA 2.1通过四个关键组件学习同时具备高质量密集局部特征和全局语义理解的表征:密集预测损失、深度自监督、多模态tokenizer以及数据和模型扩展。

图2: V-JEPA 2.1详细架构

图2: V-JEPA 2.1详细架构。图像和视频分别通过2D或3D卷积patch嵌入处理,添加3D旋转位置编码和可学习模态嵌入。x编码器处理可见token并输出多层嵌入,MLP融合多层表示并降维。这些上下文token与携带时空位置信息的可学习掩码token拼接,预测器处理组合序列并为掩码token生成多层预测。

密集预测损失

提出ℒdense = ℒpredict + ℒctx,对所有token(被遮蔽和可见patch)应用自监督损失。ℒctx采用距离加权方案:λi = λ / √(d_min(i,M)),其中d_min是上下文token到最近掩码token的距离。这种加权强调靠近掩码区域的patch,通过强制局部连续性来平衡分割和动作识别性能。

深度自监督

在编码器中间层应用自监督目标:将三个中间层输出与最终输出拼接,通过轻量级MLP融合降维。预测器生成四个输出对应四个编码器层,两个损失在每层都应用。深度自监督恢复了全局理解能力(SSv2 72.0,IN1K 80.8),同时提升了密集任务性能(ADE20K 38.6 mIoU)。

关键创新点:

  • 将预测损失扩展到所有token,防止可见token充当全局聚合器
  • 距离加权的上下文监督,平衡局部结构学习和全局理解

数据和模型扩展

构建VisionMix-163M数据集:将V-JEPA 2的1M图像替换为LVD-142M,调整视频采样策略(SSv2权重从0.056增至0.170,YT-1B从0.188增至0.720)。模型从ViT-g(300M)扩展到ViT-G(2B),配合高分辨率冷却阶段(视频64帧384×384,图像512×512)。

图3: V-JEPA 2.1训练配方各组件的影响

图3: V-JEPA 2.1训练配方各组件的影响。消融实验从ViT-L架构开始,在ADE20k单图像语义分割和SSv2动作分类上进行。引入加权上下文自监督显著提升分割但损害分类,深度自监督恢复并进一步提升分割性能。


实验设定与结果

实验配置

  • 数据集:VisionMix-163M(142M图像 + 21M视频)
  • 评估协议:密集任务使用线性探测,全局任务使用注意力探测
  • 密集任务:ADE20K语义分割、NYUv2深度估计、YouTube-VOS视频目标分割
  • 全局任务:SSv2动作识别、ImageNet图像分类、Ego4D/EPIC-KITCHENS预测任务

核心结果

V-JEPA 2.1 ViT-G在冻结骨干网络评估中达到SOTA:

任务 数据集 指标 V-JEPA 2.1 前代SOTA
深度估计 NYUv2 RMSE ↓ 0.307 DINOv3
语义分割 ADE20K mIoU 47.9 DINOv3
动作识别 SSv2 Acc. 77.7% DINOv3
物体交互预测 Ego4D mAP 7.71 STAformer
动作预测 EPIC-KITCHENS Recall@5 40.8 PlausiVL
机器人抓取 Franka臂 成功率 +20% V-JEPA 2 AC
机器人导航 Tartan Drive ATE ↓ 5.687 前代工作

启示和结论

主要贡献

  1. 密集预测损失:发现仅监督被遮蔽token导致密集特征质量差,提出对所有token应用自监督损失
  2. 深度自监督:在编码器中间层应用自监督目标,平衡密集和全局任务性能
  3. 数据和模型扩展:构建VisionMix-163M数据集,扩展到ViT-G(2B参数)并引入高分辨率冷却

理论意义

  • 揭示了视频自监督学习中密集特征质量与监督范围的关系
  • 证明了深度自监督在平衡局部和全局表征中的有效性

实践价值

  • 为机器人感知和规划提供了更强的视觉表征
  • 提供了从2B模型蒸馏到80M/300M小型模型的实用方案
  • 代码和预训练模型已开源,促进后续研究和应用

局限性

  • 计算资源需求大:ViT-G训练需要大量GPU资源
  • 视频长度限制:当前处理16-64帧,长视频处理需要进一步研究
  • 多模态扩展:当前主要关注视觉,与语言等模态的融合未深入探索

代码:https://github.com/facebookresearch/vjepa2