百度站长 添加网站,除了个性化阶段,东莞路桥公司是国企吗,解决做网站问题架构图1.
不再是学习Y跟Yhat,而是\(S_Y和\hat{S_Y}\).思路跟stable diffusion一样.不在真实Y空间学习,而是在Y编码之后的隐空间学习.所以维度更低.效果更好.
2 方法论
我们提出了VL-JEPA(图1)#xff0c;这是一种用于视觉语言任务的具有联合嵌入预测架构(JEPA)的模型。 VL-JEP…架构图1.不再是学习Y跟Yhat,而是\(S_Y和\hat{S_Y}\).思路跟stable diffusion一样.不在真实Y空间学习,而是在Y编码之后的隐空间学习.所以维度更低.效果更好.2 方法论我们提出了VL-JEPA(图1)这是一种用于视觉语言任务的具有联合嵌入预测架构(JEPA)的模型。 VL-JEPA 使用三元组\((X_V,X_Q,Y)\)进行训练其中\(X_V\)表示视觉输入(单个图像或视频帧序列)\(X_Q\)是文本查询(即问题)Y是文本目标 (即答案)要预测。 VL-JEPA 由四个组件组成X-Encoder(XV↦SV)将大量视觉输入压缩为紧凑的视觉嵌入——类似于经典 VLM 中的“视觉标记”的连续向量序列。预测器(⟨SV,XQ⟩↦ShatY)是VL-JEPA的核心组件。 它将视觉嵌入映射到目标嵌入的预测并以文本查询作为条件。Y-Encoder(Y↦SY)将文本目标嵌入到连续的潜在空间中作为预测目标。 目标嵌入有望抽象出与任务无关的信息。Y-Decoder(ShatY↦Yhat)在VL-JEPA的主要训练阶段不参与。 在推理时它会在必要时将预测的嵌入转换为人类可读的文本。图2说明了我们如何实例化本文中的VL-JEPA架构。 对于 X-Encoder我们选择了 V-JEPA 2 (Assran 等人2025)这是一个视觉 Transformer它输出一系列视觉标记然后将其投影并输入到使用 Llama 3 Transformer 层初始化的 Predictor 中。 查询调节是通过标记化和嵌入文本查询并将生成的文本标记嵌入与视觉嵌入一起输入到 Predictor 中来实现的。 Llama 3 Transformer 层的输出被池化并投影到由 EmbeddingGemma-300M (Vera 等人, 2025) 初始化的 Y-Encoder 生成的目标嵌入空间中。 我们在§LABEL:sec:implementation_details中提供了更多技术细节。培训目标。 JEPA 模型通常联合优化两个目标1)嵌入空间中的预测误差2)避免表示崩溃的额外正则化(Bardes 等人2021Balestriero 和 LeCun2025)。 任何实现这两个属性的损失都可以应用于 VL-JEPA。 或者正则化项可以用其他防崩溃策略代替例如对Y-Encoder(Assran等人2025)使用指数移动平均(EMA)或冻结Y-Encoder(Zhou等人2025)。在这项工作中由于 InfoNCE 损失 (Radford 等人2021) 由于其在视觉语言领域的成熟度我们采用了它。 更先进的非样本对比正则化例如 VICReg (Bardes 等人2021) 和 SIGReg (Balestriero and LeCun, 2025) 也可以应用但我们将探索留给未来的工作。 InfoNCE 损失可以在数学上分为(Wang 和 Isola2020)1)表示对齐项它最小化归一化预测和目标嵌入之间的距离2)均匀性正则化项将批次中的嵌入彼此分开从而避免表示崩溃。 我们使用双向 InfoNCE 损失联合训练 预测器 和 Y 编码器使它们能够相互学习。与生成式 VLM 使用的标记空间损失相比由于简化的目标分布计算嵌入空间中的训练损失是有益的。 具体来说许多现实世界的预测任务本质上是不适定的对于相同的输入X可能存在多个都可以接受的合理目标Y。 例如假设查询“如果我向下扳动灯开关会发生什么”,“灯已关闭” 和 “房间将变暗” 都是有效答案。 然而在原始的独热 Token 空间中两个序列是正交的因为它们不共享重叠的 Token 。 但是当 VL-JEPA 的 Y-Encoder 将它们嵌入到附近的点(理想情况下产生紧凑的单峰分布)时学习任务变得更加容易模型不再需要在稀疏标记空间中拟合多个不相交的高密度区域而只需要在连续嵌入空间中拟合单个相干模式。多任务处理。 VL-JEPA 使用单一、统一架构支持多种任务(图2)。 对于视觉文本到文本生成任务例如字幕或开放式 VQA查询XQ是字幕提示或问题预测器学习预测目标输出ShatY的嵌入然后将其解码为文本。 VL-JEPA 还支持 CLIP 式开放词汇分类和判别性 VQA其中候选标签文本被编码到嵌入中并与预测ShatY进行比较以选择最接近的匹配。 对于文本到视频检索使用检索字幕提示将候选视频映射到其预测嵌入ShatY然后根据与编码的文本检索查询的相似性进行排名。选择性解码。 现实世界的视频应用通常需要在线流式推理例如跟踪智能眼镜中的用户操作以提供程序协助(Chen等人2024c)监控世界状态以进行在线规划、导航和机器人(Shukor等人2025Black等人2025Song等人2025)。 一个核心挑战是平衡两个相互竞争的需求模型必须在新帧到达时不断更新语义但计算效率和延迟至关重要。现有的 VLM 通常依赖显式内存机制(Zhou 等人2024Qian 等人2024) 来决定何时解码或复杂的 KV 缓存优化(Di 等人2025) 来提高效率因为自回归语言模型连续运行的成本很高。 相比之下VL-JEPA 本身支持选择性解码。 由于它预测嵌入非自回归的语义答案因此该模型提供了可以实时监控的连续语义流ShatY。 This stream can be stabilized with simple smoothing (e.g., average pooling) and decoded only when a significant semantic shift is detected, such as when the local window variance exceeds a threshold. 通过这种方式VL-JEPA 保持始终在线的语义监控同时避免不必要的解码实现响应速度和效率。3 VL-JEPA的实现3.1 模型架构X-编码器。 除非另有说明我们使用具有 304M 参数的冻结的 V-JEPA 2 ViT-L (Assran 等人2025)这是一种在图像和视频任务上都表现出色的自监督视觉模型。 每个视频输入均以 2562 分辨率统一采样为帧。 对于图像输入复制相同的图像以匹配输入形状。预测器。 预测器使用 Llama-3.2-1B 的最后 8 个 Transformer 层进行初始化从而产生 490M 个可训练参数。 文本标记生成器和标记嵌入也来自 Llama-3.2-1B。 我们允许最多 512 个查询 Token 并为短查询放置 [PAD] Token 。 我们禁用因果注意掩模以便视觉和查询嵌入可以共同参与。 线性投影将预测器与视觉和文本嵌入连接起来并应用非[PAD]标记上的平均池化来获得预测的目标嵌入。Y 编码器。 我们使用 EmbeddingGemma-300M (Vera 等人, 2025) 作为 Y-Encoder 的初始化。 我们将最大上下文长度设置为 512 来处理详细的标题。 我们发现为所有文本编码器参数设置学习率乘数×0.05 可以提高性能因为嵌入预测的质量在训练开始时不是最佳的。 线性投影头应用于Predictor和Y-Encoder获得1536维的共享嵌入空间在其中计算损失。3.2 两阶段训练大规模预训练。 VL-JEPA 分两个阶段进行训练。 第一个无查询预训练阶段旨在使用大量字幕数据建立强大的视觉语言对齐。 我们使用 PLM-Image-Auto (Cho 等人, 2025)、Datacomp (Gadre 等人, 2023) 和 YFCC-100M (Thomee 等人, 2016) 来处理图文数据。 对于视频文本数据我们包括 PLM-Video-Auto (Cho 等人, 2025)、Ego4D 原子动作描述 (Grauman 等人, 2022) 以及内部数据集 Action100M其中包含在 HowTo100M 视频 (Chen 等人, 2025b) 上生成的字幕。我们首先在 Datacomp 和 YFCC-100M 上进行仅图像训练每个视觉输入仅 1 帧这使我们能够使用 24k 的大批量。 经过 100k 次迭代后该模型已经看到了 2B 个样本并实现了 61.6% 的 ImageNet 零样本准确率(没有提示集成)。 然后我们继续进行联合图像视频预训练每个输入 16 帧。 The pretraining takes 2 weeks using 24 nodes with 8×NVIDIA H200 GPUs each. 我们采用5×10−5的恒定学习率来促进扩展训练。 我们将生成的模型称为VL-JEPABASE并使用该模型测量零样本分类和检索性能。监督微调。 第二个查询条件监督微调 (SFT) 阶段增强了 VL-JEPA VQA 功能同时保持分类和检索的预训练视觉语言对齐。 训练数据选自PLM数据混合(Cho等人2025)包括25M VQA样本、280万字幕样本、180万分类样本和下采样预训练阶段数据以避免灾难性遗忘。我们训练模型 35k 步骤批量大小为 6k(∼2 天24 个节点)并应用余弦学习率退火来提高收敛性。 由于此 SFT 数据混合物中包含过多的人类标记数据因此我们不再强调此阶段生成的 VL-JEPASFT的零样本评估。 相反我们评估 VQA 功能并将其与最先进的专家模型进行比较。表1视频分类和文本到视频检索。 每个数据集中的最佳零样本性能均突出显示。 样本看到训练步骤×有效批量大小。Video Classification (Top-1 Accuracy) Text-to-video Retrieval (Recall1)ModelParametersSamples SeenZero-shotGeneralist ModelAverageSSv2EK100EgoExo4DKinetics-400COIN (SR)COIN (TR)CrossTask (SR)CrossTask (TR)AverageMSR-VTTActivityNetDiDeMoMSVDYouCook2PVD-BenchDream-1kVDC-1kRN50 75M 12.8B 21.8 2.1 1.5 1.9 41.4 8.6 39.0 10.9 68.7 28.3 28.7 17.7 24.7 29.7 5.1 27.6 47.2 46.0ViT-B 124M 12.8B 25.3 3.1 1.3 2.4 49.5 11.2 47.3 16.2 71.5 29.3 31.0 19.5 25.7 34.0 6.1 27.0 48.5 42.9CLIP ViT-L 389M 12.8B ✓ ✓ 30.9 3.8 3.7 3.6 58.3 14.7 63.5 20.8 78.5 35.3 35.9 23.4 30.7 41.9 7.9 36.7 56.8 49.3ViT-B 375M 40B 33.9 5.2 2.3 4.9 57.8 20.6 69.9 27.7 82.9 39.6 40.2 25.0 32.1 48.6 13.8 52.1 60.9 43.7ViT-L 882M 40B 38.7 5.9 4.5 7.0 63.6 24.2 78.5 35.1 90.8 45.4 41.6 32.7 35.1 53.5 19.0 59.2 71.6 50.9SigLIP2 ViT-g 1.9B 40B ✓ ✓ 39.9 6.1 6.1 6.4 68.0 26.0 80.4 35.1 90.8 47.5 43.4 33.9 38.9 56.0 22.2 60.4 73.0 52.5ViT-B 448M 58B 37.3 5.8 3.3 6.3 65.4 21.5 77.1 26.9 91.8 44.9 46.5 35.4 35.3 49.1 15.2 59.8 68.7 49.2ViT-L 671M 58B 42.8 9.3 6.0 10.9 73.4 27.1 83.3 37.5 95.3 50.2 48.9 41.7 40.8 56.2 22.5 64.7 75.9 51.0PE-Core ViT-G 2.3B 86B ✓ ✓ 44.6 9.0 6.4 13.0 76.4 29.0 86.0 40.3 97.2 58.1 51.6 49.1 44.5 58.7 26.0 77.0 89.2 68.5VL-JEPABASEViT-L 1.6B 2.0B ✓ ✓ 46.4 16.1 13.3 21.1 57.8 39.8 74.4 60.5 88.0 58.4 37.6 55.4 49.2 47.9 23.1 78.2 88.8 87.2VL-JEPASFTViT-L 1.6B 2.5B ✗ ✓ 70.7 68.2 38.8 59.5 81.4 60.3 86.8 77.1 93.0 59.5 43.7 53.8 46.2 49.1 28.8 81.1 86.4 86.7SoTA (including specialist models) ✗ ✗ - 77.5 56.4 47.8 92.1 67.3 95.3 64.5 96.0 - 62.8 74.1 74.2 61.4 28.9 77.0 89.2 68.54 实验