2.27-3.7

VLM / LLM / GenAI
1. Beyond Language Modeling: An Exploration of Multimodal Pretraining https://beyond-llms.github.io/
1. CoPE-VideoLM: Codec Primitives For Efficient Video Language Models https://sayands.github.io/cope/
1. SpatialLM: Training Large Language Models for Structured Indoor Modeling https://manycore-research.github.io/SpatialLM/
1. BeautyGRPO: Aesthetic Alignment for Face Retouching via Dynamic Path Guidance and Fine-Grained Preference Modeling https://beautygrpo.github.io/
1. Toward One Encoder for All Point Clouds https://pointcept.github.io/Utonia/

Other things (won’t provide any comments but just an announcement)
1. Qwen-Image-2.0-pro-260303 + Qwen-Image-2.0-260303 上线。（使用了后者，发现一股很浓的 seedream4.5 味（仅个人感受））
1. LumaAI 提出 UNI-1 https://lumalabs.ai/uni-1 很牛很牛，去看网页里的demo吧！！
1. Autoresearch by Andrej Karpathy: AutoML but in 2026 https://github.com/karpathy/autoresearch

a. Accurate Planar Tracking With Robust Re-Detection https://cmp.felk.cvut.cz/~serycjon/WOFTSAM/

机构：Czech Technical University in Prague（Jiri Matas）

以下大部分内容由 NoteBookLLM 生成

TLDR:

动机 / 发现：在过去，平面跟踪高度依赖物体的“纹理”，但是传统平面跟踪在模糊、遮挡和无纹理表面（如镜子）下极易失效。

改进 / 方法：结合 SAM 2 的分割能力，提出 SAM-H 几何重检测机制，并与基于光流的 WOFT 算法融合形成 WOFTSAM。

结果：在 POT-210 和 PlanarTrack 两个顶级测试集上刷新了纪录，尤其在复杂场景下性能提升巨大（+12.4~15.2%）。

方法：

SAM 2 擅长分割，但它只提供一个模糊的遮挡块（Mask），并不懂精确的几何姿态。于是，SAM-H 应运而生：
1. 从掩码到线条：利用 Hough 变换，从 SAM 2 生成的不规则掩码边缘中提取出四条最稳健的直线。
1. 从线条到交点：通过这四条线的交点，重新找回物体的四个顶点。
1. 身份识别（DINOv2）：因为矩形具有对称性，算法必须搞清楚哪个点是左上角。研究者引入了 DINOv2 特征匹配，通过对比当前裁剪图与原始模板的特征，在 0.2 秒内就能锁定正确的旋转角度。

WOFTSAM

单纯靠分割（SAM-H）虽然稳健，但在细节精度上不如基于光流（WOFT）的算法。WOFTSAM 的策略非常务实：它采用了一种双重尝试机制：

第一步（快速追踪）：首先尝试用上一帧的姿态进行光流估计。如果成功（内点比例高），则皆大欢喜。

第二步（重检测）：如果光流法失败（例如被遮挡后重新出现），则立刻启动 SAM-H 进行“全图搜索”和重检测。

这种互补性让它在面对极端情况时表现惊人。例如，在面对一面镜子时，光流法可能会被镜子里反射的墙壁纹理带偏，而 SAM-H 却能死死咬住镜框本身。

实施指南：

初始化：在视频第一帧手动标注目标的四个控制点 X0。

分割启动：将 X0 作为提示（Prompt）输入 SAM 2.1，获取每一帧的掩码 St。

几何提取：
- 丢弃长度小于 20px 的噪点轮廓。
- 对掩码边缘进行 Hough 投票，寻找 4 条峰值直线。
- 通过最小二乘法精修直线参数，并计算四个顶点交点。

姿态消歧：如果目标丢失后重现，提取当前区域的 DINOv2 特征，与初始模板进行四个角度的相似度比对，连续 5 帧一致则判定为重定位成功。

单点降级处理：如果只能看到两个点，退化为 4 自由度的相似变换；如果只剩一个点，则仅执行 2 自由度的平移跟踪。

b. Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos https://arxiv.org/pdf/2602.23543

机构：Allen Institute for AI（华盛顿大学），丰田，微软

TLDR: SVG2（Synthetic Visual Genome 2），这是一个用于训练和评估大规模视频场景图生成任务的合成数据集。该研究通过一种全自动流水线处理了超过63.6万段视频，提取出数百万个物体实例、属性以及复杂的时空关系。为了利用这些数据，作者开发了名为 TraSeR 的视觉语言模型，该模型通过双重重采样模块（物体轨迹和时间窗口）来捕捉视频中的全局背景与局部动态。实验证明，TraSeR 在物体识别和关系预测方面显著优于 GPT-5 等现有模型，展现了结构化表示对视频问答任务的增强作用。此外，文中还探讨了数字孪生在基础模型中的必要性，并提供了详细的消融实验以验证系统设计的有效性。

方法：

Data and Data pipeline

从 SA-V 中采样了43K 个视频，从 PVD 中采样了593K 个视频，得到了660 万个对象实例、5200 万个属性和670 万个时空关系

全自动化的流程集成了 SAM2、DAM (describe anything) 和 GPT-5，以生成密集的、具有时间相关性的 video scene graphs ：

第一阶段：全景轨迹生成
- 两阶段在线-离线跟踪框架利用 SAM2 和多尺度网格提示实现动态目标发现和全局时间一致性。

第二阶段：对象描述与解析
- DAM-3B-Video 为每个轨道生成详细描述，然后 GPT-4-nano 提取对象名称和属性。基于 SAM3 的验证机制过滤掉不可靠的标签。

第三阶段：时空关系抽取
- GPT-5 推断对象间的关系，包括空间、功能、状态、运动、社交、注意力和事件级交互。

对 100 个抽样视频进行人工验证，结果显示对象标签的准确率为93.8% ，属性的准确率为88.3%，关系的准确率为 85.4% 。

TRASER Model

TRASER VLM，通过一次前向传播，从原始视频和全景物体轨迹生成 structured video scene graphs （VSG）

Trajectory-Aligned Token Arrangement: Binds ViT tokens to object trajectories based on segmentation coverage, producing identity-preserving token streams with explicit trajectory boundaries.

Object-Trajectory Resampler: Aggregates global semantics over each object's entire temporal span using Perceiver-Resampler with learnable latent queries.

Temporal-Window Resampler: Partitions video into temporal windows and resamples each window independently, preserving fine-grained motion and temporal dynamics crucial for relation detection.

结果

从 https://huggingface.co/UWGZQ/TRASER 来看，应该是基于 Qwen2.5VL 3B 的一个模型，所以对比的模型基本都是类似大小的模型：

相关补充：

Video Scene Graph（VSG）一般指 视频场景图，也常见于任务 Video Scene Graph Generation (VSGG)。

把一段视频表示成一个动态关系图：

节点（Nodes）：视频中的对象
- person
- car
- dog

边（Edges）：对象之间的关系
- person ride bike
- dog chase cat

时间维度（Temporal dimension）
- 关系会随着时间变化

例如：

时间	关系
t1	person – holding → cup
t2	person – drinking → cup

Panoptic Video Scene Graph（PVSG）是 VSG 的一个 更强、更完整的版本。
它在 VSG 的基础上加入：Panoptic-level segmentation

即：不仅检测对象，还要给出 像素级 mask。

信息	VSG	PVSG
object	✅	✅
relation	✅	✅
time	✅	✅
bounding box	✅	❌（通常不用）
segmentation mask	❌	✅

c. CoPE-VideoLM https://sayands.github.io/cope/

机构：微软，斯坦福，ETH

TLDR：CoPE-VideoLM 是一种创新的视频语言模型架构，旨在通过利用视频编解码器原语（video codec primitives）（如运动矢量和残差）来提升处理效率。传统模型通常将视频视为冗余的 RGB 图像序列，而 CoPE-VideoLM 仅对关键的 I 帧进行深度视觉编码，并对 P 帧采用轻量级的 Δ-Encoder。这种设计充分利用了视频压缩标准中的稀疏性，大幅减少了计算开销。实验表明，该方法在保持甚至超越主流模型性能的同时，最高可缩减 93% 的 Token 使用量。此外，它将生成首个 Token 的时间（TTFT）缩短了 86%，为实时机器人交互和超长视频理解提供了高效的解决方案。该研究展示了将底层图像压缩技术与高层语义推理结合的巨大潜力。

动机：

当你观看一段视频时，你的大脑并不会每秒钟重新解析 30 张完整的高清图片。相反，你会下意识地关注滑板的轨迹和人物的动作。然而，目前的视频大模型却极其低效：它们要么强行压缩帧数导致丢失细节，要么试图处理每一帧的全部像素，这不仅消耗了海量的计算资源，还受限于极短的上下文窗口。

研究人员发现，我们其实一直坐在一座被忽视的金矿上——视频压缩技术（Video Compression）。在 H.264 或 HEVC 等标准格式中，视频早已被精简为“帧间变化”的集合。为什么不让 AI 直接读取这些已经压缩好的信息呢？

传统模型处理的是冗余的 RGB 像素，而 CoPE-VideoLM 提取的是编解码原语（Codec Primitives）。

运动矢量（Motion Vectors, τ）：描述了图像块随时间的位移，类似于粗糙的光流。

残差（Residuals, δ）：捕捉了运动补偿后剩下的微小像素修正。

通过这种方式，模型只需要偶尔看一眼完整的“关键帧”（I-frame），其余时间只需通过以下公式追踪变化： $\hat{F}(t)_i=\hat{F}(t−1)_{i−τ(t)_i}+δ(t)_i$ 

方法：

CoPE-VideoLM 的核心在于一套轻量级的 Δ-Encoder，它将复杂的像素对比转换成了简洁的 Token 序列。以下是其实现的具体步骤：

识别 GOP 结构
模型首先解析视频的图片组（Group of Pictures - GOP）结构。它将视频分为独立的 I 帧（完整图像）和预测性的 P 帧（仅包含变化）。I 帧通过标准的视觉编码器处理，而 P 帧则进入专有的高效通道。

Δ-Encoder 并行处理
Δ-Encoder 包含两个专门的分支来提取 P 帧中的特征：
1. 运动分支：使用MLP处理运动矢量，并通过运动 Transformer 聚合为极少量的“运动 Token”。
1. 残差分支：使用轻量级的 ResNet-18 提取残差中的视觉修正，再通过残差 Transformer 压缩为“残差 Token”。这两个分支最终生成的 Δtokens 仅包含 8 个 Token，远少于传统图像所需的 196 个 Token。

两阶段训练对齐
为了让语言模型能理解这些“变化 Token”，研究人员设计了精妙的训练策略：
1. 预训练阶段：通过模拟视频解码过程，强迫 Δ-tokens 在嵌入空间中与真实的 RGB 图像特征对齐。其核心目标是最小化预测 Token 与真实图像 Token 之间的回归损失（LMSE）。
1. 端到端微调：将预训练好的编码器接入视频大模型（如 LLaVA-Video），在海量问答数据上进行微调，让模型学会如何交替处理完整图像和这些“增量信息”。

结果

与 LLaVA-Video 对比，在 token 需求量（budge）和推理速度上都是明显更优

d. Beyond Language Modeling: An Exploration of Multimodal Pretraining https://beyond-llms.github.io/

机构：Meta，NYU

TLDR：多模态预训练中 MoE 和 RAE 是两个 work 的东西。主要做了以下实验：

github io 上比较完整（而且原文有点太长了），可以移步网页进行浏览

目录：

a. Accurate Planar Tracking With Robust Re-Detection https://cmp.felk.cvut.cz/~serycjon/WOFTSAM/

b. Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos https://arxiv.org/pdf/2602.23543

c. CoPE-VideoLM https://sayands.github.io/cope/

d. Beyond Language Modeling: An Exploration of Multimodal Pretraining https://beyond-llms.github.io/