1. 论文解读：Efficient Universal Perception Encoder

作者：Chenchen Zhu等机构：Meta Reality Labs, FAIR at Meta arXiv：2603.22387v1 日期：2026年3月23日

TLDR

本文提出 Efficient Universal Perception Encoder (EUPE)，通过"先放大再缩小"的两阶段蒸馏策略，从多个领域专家（PEcore、DINOv3、PElang）蒸馏知识到高效编码器。EUPE-ViT-B 在图像理解、视觉语言建模和密集预测三个任务域上达到或超越同尺寸的单个领域专家性能，同时推理效率高，适合边缘设备部署。

动机与发现

问题

边缘设备上的AI应用需要在有限算力下同时处理多个任务，但现有的视觉编码器通常是单一领域的"专家"：

CLIP、SigLIP 等在图像理解和VLM表现好，但密集预测（分割、深度估计）较弱
DINOv2、SAM 等在密集预测表现好，但缺乏视觉语言能力
直接从多个教师蒸馏到小模型时，小模型容量不足，无法有效融合多领域知识

关键发现

Scaling-up before scaling-down 原则：直接从小教师蒸馏到高效编码器效果差，因为高效编码器容量不足以同时吸收多个领域的特征表示。需要先训练一个大容量代理模型来统一多教师知识，再蒸馏到小模型。
三阶段蒸馏 pipeline 有效：Stage 1 训练大型代理模型 → Stage 2 固定分辨率蒸馏 → Stage 3 多分辨率微调，各阶段对不同任务域有互补贡献。
教师选择关键：PEcore（图像理解）、DINOv3（密集预测）、PElang（视觉语言建模）三个教师组合效果最佳。

方法

核心思想

采用"先放大再缩小"策略：先用多个基础模型蒸馏到一个大型代理模型（1.9B参数），再从这个代理模型蒸馏到目标高效编码器。代理模型有足够容量来统一来自不同领域专家的知识。

图1: 将蒸馏方法(EUPE)应用于ViT-B，可以获得在各种任务域表现均衡的通用编码器

三阶段蒸馏 pipeline

图2: 多阶段蒸馏pipeline（放大 → 缩小）

Stage 1：多教师蒸馏到代理模型

选择三个领域专家作为教师：

PEcore-G：图像理解和零样本分类
DINOv3-H+：密集预测（分割、深度估计、关键点匹配）
PElang-G：视觉语言建模

图3: 每个教师的蒸馏流程

Stage 2：固定分辨率蒸馏

从代理模型蒸馏到目标高效编码器（如 ViT-B、ViT-S、ConvNext-Tiny）。保持图像分辨率固定为 256×256 以提高计算效率，可使用更长的训练 schedule。

Stage 3：多分辨率微调

在 Stage 2 基础上进行多分辨率微调。图像构建成金字塔结构，教师和学生独立随机选择不同分辨率的图像，从而学习不同粒度的表示。

损失函数

总损失为各教师损失的加权和：

$L = \sum_{t \in T} λ_{t} L_{t}$

实验设定与结果

实验配置

测试任务域：图像理解（IN1k-ZS, IN1k-KNN）、VLM（TextVQA, SQA, Realworld, GQA, POPE）、密集预测（SPair, ADE20k, NYUv2）
评估方式：冻结编码器，使用其特征不做任何微调

核心结果

Method	IN1k-ZS	TextVQA	SPair	ADE20k
PEcore-B (图像理解专家)	75.2	61.5	42.1	46.2
SigLIP2-B (VLM专家)	73.1	62.1	39.8	43.5
DINOv3-B (密集预测专家)	-	-	49.2	48.1
RADIOv2.5-B (聚合方法)	68.5	58.2	40.3	42.8
EUPE-ViT-B (本文)	74.8	63.2	51.5	49.6

EUPE 在密集预测任务上超越 DINOv3 专家（SPair: 51.5 vs 49.2）
在 VLM 任务上显著超越 SigLIP2 和 PEcore
在图像理解任务上与 PEcore 和 SigLIP2 持平

启示和结论

主要贡献

提出"先放大再缩小"的蒸馏策略，揭示了高效通用编码器的训练关键是先训练大容量代理模型来统一多教师知识
发布 EUPE 模型家族（ViT-T/S/B/Base，ConvNext-Tiny），在多个任务域达到或超越同尺寸领域专家
提供详细的训练recipe消融实验，为后续研究提供指导

局限性

从7B代理模型蒸馏到ViT-B学生时，VLM性能下降，说明大模型到小模型的蒸馏存在容量差距
当前仅验证了视觉编码器，未探索其他模态

（原文图表请参考 PDF）

2. 论文解读：The Universal Normal Embedding

作者：Chen Tasker Roy Betser等机构：Technion - Israel Institute of Technology arXiv：2603.21786v1 日期：2026年3月23日

TLDR

本文提出 Universal Normal Embedding (UNE) 假设：视觉编码器和生成模型的潜在空间都服从高斯分布，可以被视为同一底层高斯潜在空间的噪声线性投影。基于这一假设，DDIM反转的噪声空间中同样蕴含丰富的语义信息，线性探测器在该空间中可实现强属性预测，且可通过沿语义方向移动实现可控编辑。

动机与发现

问题

生成模型（如扩散模型）和视觉编码器（如CLIP、DINO）各自沿着不同轨迹发展，基于不同的数学原理优化。但它们共享一个基本特性：潜在空间的高斯性。

关键发现

高斯性验证：通过多种统计检验验证了生成模型和编码器的潜在坐标都近似服从高斯分布
语义编码于噪声空间：DDIM反转的噪声本身编码了丰富的语义信息
线性语义方向：共享的高斯潜在空间中，语义变化与线性方向对齐

方法

核心思想

UNE假设：存在一个理想的Gaussian潜在空间，编码器和生成器的潜在空间都是该空间的噪声线性投影：

编码器：从图像映射到语义嵌入
生成器：从Gaussian噪声生成图像

图1: 不同编码器（如CLIP、DINO）和生成模型提供了同一底层高斯潜在结构的不同视图

Induced Normal Embeddings

$$\mathbf{z} = \mathbf{W}\mathbf{y} + \epsilon$$

其中 $\mathbf{y} \sim \mathcal{N}(0, \mathbf{I})$ 是底层高斯潜在变量，$\mathbf{W}$ 是线性投影矩阵，$\epsilon$ 是噪声。

实验设定与结果

高斯性测试

模型类型	AD (↓)	AD% (↑)	SW% (↑)
SD 1.5	0.31	93%	91%
SDXL	0.29	94%	92%
CLIP ViT-L	0.42	87%	84%
DINOv2	0.38	89%	86%

分类探测（CelebA）

潜在空间	微笑	性别	年龄
CLIP	94.2	97.1	91.3
SD 1.5噪声	92.8	96.5	89.7
DINOv2	91.5	95.8	88.2

启示和结论

主要贡献

提出UNE假设，统一了编码器和生成器的潜在空间几何
证明了DDIM噪声空间编码丰富语义，可用于线性探测和编辑
发布NoiseZoo数据集

（原文图表请参考 PDF）

3. 论文解读：Exclusive Self Attention

作者：Shuangfei Zhai 机构：Apple arXiv：2603.09078v1 日期：2026年3月10日

Exclusive Self Attention

作者：Shuangfei Zhai 机构：Apple arXiv：2603.09078v1

TLDR

本文提出 Exclusive Self Attention (XSA)，一种对标准自注意力的简单修改，通过约束注意力只捕获与token自身value向量正交的信息来改进Transformer的序列建模性能。XSA在三个模型规模（最高2.7B参数）上持续优于标准SA，且随着序列长度增加，性能提升愈发显著，同时仅引入极小的计算开销。

动机与发现

问题

Transformer中自注意力(SA)和前馈网络(FFN)交替工作：SA聚合上下文信息，FFN执行逐位置特征更新。然而，本文发现Transformer存在一个隐藏问题——注意力相似度偏差(attention similarity bias)：注意力输出与自身的value向量具有很高的余弦相似度。

图1: 1.3B参数语言模型的注意力相似度偏差。左：value向量的平均余弦相似度；中：注意力对角值；右：注意力输出与self value向量的平均余弦相似度

关键发现

注意力相似度偏差普遍存在：value向量倾向于正相关，对角注意力值相对较高，导致注意力输出与self value向量有很高的相似度
偏差的负面影响：SA花费大量容量建模逐点特征变换，与上下文建模形成竞争
XSA解决方案：从注意力输出中减去self value向量的投影，完全消除注意力相似度偏差

方法

核心思想

XSA在标准自注意力基础上增加一个额外步骤：从SA输出中移除其在self value向量方向上的投影。

$z_{i} = y_{i} - \frac{y_{i}^{T} v_{i}}{‖ v_{i} ‖_{2}^{2}} v_{i}$

其中 $y_{i}$ 是标准SA的输出， $v_{i}$ 是self value向量， $z_{i}$ 是XSA的输出。

关键创新点

显式排除与self value向量方向一致的信息
迫使注意力层专注于上下文信息建模
只需在标准SA基础上修改两行代码

实验结果

训练损失对比

模型规模	SA 训练损失	XSA 训练损失	SA 验证损失	XSA 验证损失
0.7B	2.15	2.08	2.18	2.11
1.4B	1.98	1.91	2.02	1.95
2.7B	1.85	1.77	1.89	1.81

下游任务（8项平均准确率）

模型规模	SA	XSA	提升
0.7B	52.3%	54.1%	+1.8%
1.4B	55.8%	58.2%	+2.4%
2.7B	58.5%	61.3%	+2.8%

关键发现

XSA在三个模型规模上持续优于标准Transformer
序列长度越长，收益越大（最长16384）
对学习率具有鲁棒性
计算开销极小，可忽略不计

结论

XSA是一个简单有效的Transformer改进方案：

仅两行代码修改，易于集成
在多个模型规模和任务上验证优越性能
对长上下文建模特别有价值
可视为隐式的Attention Sink

（原文图表请参考 PDF）

4. 论文解读：DetPO

作者：Gautam Rajendrakumar Gare, Neehar Peri, Matvei Popov, Shruti Jain, John Galeotti, Deva Ramanan 机构：Carnegie Mellon University, Roboflow arXiv：2603.23455v1 日期：2026-03-24

Abstract（原文）

Multi-Modal LLMs (MLLMs) demonstrate strong visual grounding capabilities on popular object detection benchmarks like OdinW-13 and RefCOCO. However, state-of-the-art models still struggle to generalize to out-of-distribution classes, tasks and imaging modalities not typically found in their pre-training. While in-context prompting is a common strategy to improve performance across diverse tasks, we find that it often yields lower detection accuracy than prompting with class names alone. This suggests that current MLLMs cannot yet effectively leverage few-shot visual examples and rich textual descriptions for object detection. Since frontier MLLMs are typically only accessible via APIs, and state-of-the-art open-weights models are prohibitively expensive to fine-tune on consumer-grade hardware, we instead explore black-box prompt optimization for few-shot object detection. To this end, we propose Detection Prompt Optimization (DetPO), a gradient-free test-time optimization approach that refines text-only prompts by maximizing detection accuracy on few-shot visual training examples while calibrating prediction confidence. Our proposed approach yields consistent improvements across generalist MLLMs on Roboflow20-VL and LVIS, outperforming prior black-box approaches by up to 9.7%.

Abstract（中文翻译）

多模态大语言模型（MLLM）在 OdinW-13 和 RefCOCO 等常见目标检测基准上已经展现出较强的视觉 grounding 能力。然而，当前最先进模型在分布外类别、任务以及训练时不常见的成像模态上仍然难以泛化。尽管 in-context prompting 常被用来提升多种任务上的性能，我们发现，在目标检测场景中，它往往甚至不如只用类别名提示的效果。这表明，现有 MLLM 还无法有效利用 few-shot 视觉示例和丰富文本描述来完成目标检测。由于前沿 MLLM 通常只能通过 API 调用，而最强开源模型在消费级硬件上又难以低成本微调，本文转而探索面向少样本目标检测的黑盒提示优化。

TLDR

DetPO 的真正贡献不是“又做了一个 prompt optimizer”，而是先证明了一个不太直观的事实：对当前检测型 MLLM，直接把 few-shot 图片塞进多模态 ICL prompt 往往不升反降。作者据此把 few-shot object detection 重写成一个更适合 black-box 模型的过程：先按类别独立地用 FP/FN 驱动 prompt refinement，再用 VQA Score 对框分数做判别式重校准。结果上，Qwen3-VL(30B-A3B) 在 RF20-VL 上从 11.9 mAP 提升到 21.6，Gemini 3 Pro 从 23.8 提升到 26.3，但和 white-box fine-tuning 相比仍有明显差距。

动机与发现

问题：为什么 few-shot 图像示例没有自然变成检测增益？

论文关注的是一个很现实的设定：前沿 MLLM 多数只能通过 API 使用；开源大模型即使可微调，few-shot detection 也常常训练成本过高。因此用户自然会希望“既然模型支持多模态上下文，那我直接给 few-shot 示例图 + 文本说明，不就行了吗？”作者先验证了这个直觉，发现对 object detection 而言，这个直觉通常是错的。

关键发现

直接多模态 ICL 在检测任务里经常失败：Table 1 中，Qwen2.5-VL 7B 从 6.2 降到 1.8；Qwen3-VL 30B-A3B 也从 11.9 降到 9.8。
few-shot 信息更适合作为“离线提示优化监督”：DetPO 的核心不是让目标模型在推理时看例子，而是先把例子蒸馏成更清晰的文本类定义。
DetPO 的增益主要来自两件事：对比式 prompt refinement 降低类间混淆；VQA Score 进一步压低 false positives，但会带来一部分 FN 增加。

方法

图1: 作者把梯度无关的 few-shot detection 看成一种 multimodal ICL 问题，但发现直接把视觉示例给目标 MLLM 不如先用它们优化一个更好的文本 prompt。

DetPO 的关键重新表述了“few-shot detection 到底要适配什么”：它认为需要适配的不是模型权重，而是每个类别的自然语言决策边界。因此，作者不是优化一个统一大 prompt，而是为每个类单独维护和迭代一个文本定义。

问题定义与输入输出

输入：类别集合、few-shot 训练图像、每类 GT 框、目标 MLLM
输出：每个类别一个优化后的文本定义，以及校准后的检测框分数
目标：在不更新模型参数的前提下，最大化 few-shot detection 的验证 / 测试性能

方法总览

初始类定义生成：先从正样本总结该类的共同视觉特征；
误差驱动对比式修订：用当前 prompt 在训练集上推理，找最严重 FP/FN，再修 prompt；
验证集候选选择：不盲信最后一轮 prompt，而是在多个候选版本中用 held-out validation 选最好的一版。

对比式提示词精炼：为什么按类独立、为什么用 FP/FN？

图2: 每次迭代先用当前类定义在训练集上得到 TP/FP/FN，再要求模型把假阳性显式排除、把假阴性显式纳入，逐步收紧类边界。

DetPO 最核心的机制是对比式提示词精炼：不是只让模型看“正确样本长什么样”，还强制它看“最容易犯错的样本长什么样”。作者按类独立优化的原因，从方法和实验都能看出来：检测错误本质上是类别边界错误；每个类的 FP/FN 模式不同；多类共用 prompt 会相互干扰。

为什么先 include 再 exclude？

论文在附录明确写道：false negative refinement 先做，false positive refinement 后做，因为这样可以先把定义放宽，再逐步收紧。也就是说，include 对应提升 recall，exclude 对应提升 precision。这一本质上是一种“先扩召回、后控误检”的保守策略。

置信度估计与 VQA Score：为什么有效？

作者认为 MLLM 检测的一个大问题是：会给出很多框，但默认没有可靠的 per-box confidence。于是方法分成两层：先让模型在检测阶段自报置信度，再可选用 VQA Score 重排。自报分数几乎不增加额外调用成本；VQA Score 则更像一个后验验证器，它专门回答“这个框里到底是不是 class X”，因此更有能力压低 FP。

训练与推理细节

优化对象：不更新模型参数，只更新自然语言 prompt
优化信号：训练集上的 TP / FP / FN
最终选择：在多个候选 prompt 中用验证集挑最好
Gemini 特殊处理：由于 API 不暴露 token probability，Gemini 的 VQA Score 由 Qwen3-VL(30B-A3B) 代算

复杂度与开销（如有）

per-class 迭代优化，类别数多时成本会线性增长
VQA Score 对每个预测框单独再问一次，开销与框数量线性相关
与 GEPA 对比时，token 使用下降 81%，总耗时约快 17%

实验设定与结果

图3: 左图比较 baseline prompt、初始 DetPO prompt 和最终优化 prompt；右图显示训练集上的增益一般在前几轮最大，大约第 6 轮开始进入平台。

数据集与评测协议

Roboflow20-VL (RF20-VL)：20 个 OOD 数据集，每个数据集提供 10-shot 训练样本与 annotator instructions
LVIS Rare 50 10-shot：从 LVIS 中选择 50 个稀有类别做 few-shot 评测
指标：COCO mAP；DSPy baseline 里还使用 per-image F1@IoU≥0.5 作为内部优化指标

对比基线与实现设置

specialist detectors：GroundingDINO、LLMDet、SAM3、MQ-GLIP、YOLO-E
generalist MLLMs：Qwen2.5-VL、Qwen3-VL、Gemini 3 Pro
black-box prompt optimization baselines：GEPA、MIPROv2
white-box upper bound：GroundingDINO fine-tuning、Qwen3-VL LoRA

核心结果

Method	基线 mAP	+DetPO	+DetPO+VQA
Qwen2.5-VL 7B	6.2	9.1	11.9
Qwen2.5-VL 72B	10.4	15.7	16.5
Qwen3-VL 8B	11.4	15.3	17.5
Qwen3-VL 30B-A3B	11.9	19.4	21.6
Gemini 3 Pro	23.8	-	26.3

Qwen3-VL 30B-A3B：11.9 -> 21.6，提升 +9.7 mAP
Gemini 3 Pro：23.8 -> 26.3，提升约 +2.5 mAP
最佳 specialist zero-shot 模型：LLMDet 为 17.2 mAP

消融实验

baseline：11.9
+ contrastive prompt optimization：19.4
+ SigLIPv2 score：16.4
+ VQA Score：21.6

这说明真正的大头增益来自 prompt refinement 本身；VQA Score 是进一步校准，而不是主体增益来源。

误差分析或失败案例（如有）

图4: DetPO 和 VQA Score 共同缓解类别混淆、类别失衡和过度误检。

Wb-Prova 中，Juvenile / Piglet 的对角真阳性率被显著拉高，VQA 后达到 63% / 79%
Actions 中，Defense 从 45% 升到 68%，Serve 从 22% 升到 59%
缺陷检测里，baseline 会把 98% 的 non-defective fishplates 误判为 defective，DetPO + VQA 明显缓解这种过度误检

但 Fig. 5 同时揭示了 trade-off：DetPO 本身显著减少 classification errors；VQA Score 继续减少 FP；但会把一部分真正例压低，导致 localization error 和 FN 上升。

与已有工作的关系

Compared to GEPA / MIPROv2：DetPO 不是通用 prompt optimizer，而是检测任务专用的、按类独立的、误差驱动优化器。
Compared to specialist detectors：DetPO 的意义不在于超越一切 detector，而在于在 black-box API 条件下，把 generalist MLLM 变成可用的 few-shot detector。
Compared to white-box fine-tuning：DetPO 仍然落后，因此它更像是 practical substitute，而不是性能上限。

证据与论证强度

论文明确声称：直接多模态 ICL 对 few-shot detection 不稳；DetPO 可显著优于 baseline 与已有黑盒 prompt optimization；VQA Score 能进一步提升 calibration。
结果支持到哪里：Table 1, 2, 3, 4 和 Fig. 4, 5 已足够支撑上述 claim 的主体部分。
从结果推断但未被完全证明：direct ICL 失败是否真由 rigid post-training prompt structures 导致、per-class optimization 是否在更大类别规模上仍最优、include-before-exclude 是否一定优于相反顺序。

启示和结论

主要贡献

先做了一个关键诊断：当前 MLLM 的检测能力并不等于已经具备稳定的 multimodal few-shot ICL 能力。
提出 DetPO，把 few-shot 视觉样本蒸馏成按类独立的自然语言边界，而不是直接放进推理上下文。
用 VQA Score 把框分数校准问题转成局部的二分类 verification 任务，进一步压低误检。

理论意义

对于 black-box MLLM，few-shot adaptation 的有效接口未必是“更多上下文”，而可能是“更精确的类定义”。
prompt optimization 在 detection 上必须利用结构化错误信号，而不能直接套用通用 NLP prompt search 的反馈模板。

实践价值

对只能通过 API 使用的闭源模型，DetPO 提供了一条真正可操作的 few-shot detection 路线。
对 OOD 类别、特殊模态和新任务，DetPO 比直接多模态 ICL 更稳，更贴近真实部署场景。

局限性

离线优化仍然有成本，按类迭代优化在类数多时会明显变慢。
VQA Score 很贵，不是免费的后处理。
与 white-box fine-tuning 仍有差距。
实现和实验细节存在一些可质疑点，如 include/exclude 顺序不完全一致、Gemini 的 VQA Score 由 Qwen 代算。

5. 论文解读：LeWorldModel

作者：Lucas Maes, Quentin Le Lidec, Damien Scieur, Yann LeCun, Randall Balestriero 机构：Mila & Université de Montréal, New York University, Samsung SAIL, Brown University arXiv：2603.19312v2 日期：2026-03-24

Abstract（原文）

Joint Embedding Predictive Architectures (JEPAs) offer a compelling framework for learning world models in compact latent spaces, yet existing methods remain fragile, relying on complex multi-term losses, exponential moving averages, pre-trained encoders, or auxiliary supervision to avoid representation collapse. In this work, we introduce LeWorldModel (LeWM), the first JEPA that trains stably end-to-end from raw pixels using only two loss terms: a next-embedding prediction loss and a regularizer enforcing Gaussian-distributed latent embeddings. This reduces tunable loss hyperparameters from six to one compared to the only existing end-to-end alternative. With 15M parameters trainable on a single GPU in a few hours, LeWM plans up to 48× faster than foundation-model-based world models while remaining competitive across diverse 2D and 3D control tasks. Beyond control, we show that LeWM’s latent space encodes meaningful physical structure through probing of physical quantities. Surprise evaluation confirms that the model reliably detects physically implausible events.

Abstract（中文翻译）

联合嵌入预测架构（JEPA）为在紧凑潜在空间中学习世界模型提供了一个很有吸引力的框架，但现有方法仍然较脆弱，往往依赖复杂的多项损失、指数滑动平均、预训练编码器或辅助监督来避免表征塌缩。本文提出 LeWorldModel（LeWM），这是首个仅使用两项损失就能从原始像素稳定端到端训练的 JEPA：下一嵌入预测损失，以及一个强制潜在嵌入服从高斯分布的正则项。与唯一现有的端到端替代方案相比，它把需要调的损失超参数从 6 个降到 1 个。LeWM 仅有 1500 万参数，可在单张 GPU 上于数小时内训练完成；相较基于基础模型的世界模型，其规划速度最高快 48 倍，同时在多种 2D 和 3D 控制任务上保持竞争力。除控制任务外，作者还表明 LeWM 的潜空间通过物理量 probing 编码了有意义的物理结构；惊讶度评估进一步表明，该模型能可靠检测物理上不合理的事件。

TLDR

LeWorldModel 的核心贡献不是单纯“做了一个更快的世界模型”，而是把端到端 JEPA 世界模型的训练目标压缩成两件事：未来可预测性和分布级反塌缩。具体做法是用下一步 latent prediction loss 学动力学，再用 SIGReg 强制潜变量分布保持非塌缩。论文报告：模型约 15M 参数，单张 L40S 即可训练；PushT 上比 PLDM 高 18% 成功率，规划速度相对 DINO-WM 最高快 48x，但在 TwoRoom 这种低复杂度环境上存在明显短板。

动机与发现

问题：端到端 JEPA 世界模型为什么难训？

JEPA 的吸引力在于它直接预测未来表征，而不是重建像素；这通常更省计算，也更贴近控制任务真正需要的抽象状态。但问题也非常集中：如果目标只有“让未来表征可预测”，模型很容易收敛到塌缩解。已有方案要么像 PLDM 一样堆很多正则和损失，要么像 DINO-WM 一样依赖冻结预训练编码器。

关键发现

两项损失足够构成一个可工作的端到端 JEPA 训练配方：式(3) 只保留 L_pred + λ·SIGReg，训练曲线比 PLDM 更平滑，PushT 多 seed 成功率也更高（Table 5, Fig. 18/19）。
LeWM 的优势主要体现在“稳定性 + 速度 + 简洁性”的组合：PushT、Reacher 上明显优于 PLDM；对 DINO-WM 则更像“速度压倒性领先、性能部分接近”。
SIGReg 的适用性并不对所有环境成立：TwoRoom 的结果暴露了高维高斯先验与低内在维度环境之间的张力。