网站建设目标及需求临漳网站建设-万宁市网站建设公司-Seo优化

网站建设目标及需求,临漳网站建设,做网站公司宁波,做网站视频点播难不难序号属性值1论文名称VLA-ADAPTER2发表时间/位置20253CodeVLA-Adapter4创新点 1#xff1a;小模型范式。放弃了主流的 7B/13B 大模型#xff0c;直接使用 0.5B (5亿参数) 的 Qwen2.5 作为主干。通过实验证明了只要“桥接”设计得好#xff0c;小模型也能在具身智能任务上超…序号属性值1论文名称VLA-ADAPTER2发表时间/位置20253CodeVLA-Adapter4创新点1小模型范式。放弃了主流的 7B/13B 大模型直接使用0.5B (5亿参数)的 Qwen2.5 作为主干。通过实验证明了只要“桥接”设计得好小模型也能在具身智能任务上超越大模型。跳过了昂贵且耗时的“大规模机器人数据预训练”阶段直接进行微调训练极大降低了数据和算力门槛。2通过实验发现了两个“大模型控制机器人”的底层规律视觉特征 (Raw Latent) 用中间层只有 VLM 的中间层保留了机器人操作最需要的空间和几何信息深层太抽象偏语义反而不好用。意图特征 (ActionQuery) 用深层专门用来提取任务意图的 ActionQuery Token必须走到最深层才能收集到完整的多模态信息。3通过设计了Bridge Attention (桥接注意力)模块实现全层信息利用双路特征注入一路输入Raw Latent看环境细节。一路输入ActionQuery Proprioception看任务意图和自身状态。针对视觉通路Raw Latent设计了一个可学习的参数 g像水龙头一样自动调节视觉信息的注入量。模型自己决定当前动作是更需要盯着图像细节看还是更依赖指令和自身感觉。全层信息利用 (VLA-Adapter 的做法是在每一层之间都修了一个Bridge Attention连廊。)不只取 VLM 的最后一层输出而是通过Adapter 结构提取 VLM所有层的有效信息确保空间感和语义理解“全都要”。5引用量用 0.5B 小模型不搞预训练利用中间层看空间、深层看意图通过带开关的 Bridge Attention 融合信息单卡8小时训练出 SOTA 机器人。一提出问题目前的 VLA 模型如 Google 的 RT-2 等通常是拿一个巨大的大语言模型LLM或视觉语言模型VLM然后在海量的机器人数据上进行“预训练”。这往往算力昂贵推理缓慢依赖数据。针对这个问题作者提出了VLA-Adapter试图证明“小模型好的设计”可以战胜“大模型暴力计算”。极小的主干网络 (Tiny-Scale)他们只用了0.5B (5亿参数)的模型作为基础。作为对比常见的 LLaMA 模型通常是 7B 或 13BGPT-4 则是万亿级别。这意味着这个模型可以在很小的设备上运行。无需机器人预训练 (No Robotic Pre-training)这是非常反直觉的一点。通常认为要想让机器人动起来必须先让模型看几百万次机器人动作。作者通过高效的架构设计跳过了这一步直接进行微调或学习。桥接注意力 (Bridge Attention)作者发现不是所有的视觉或语言信息对机器人动作都同等重要。以前的方法囫囵吞枣地把所有图片和文字塞给模型。VLA-Adapter的方法设计了一个“适配器Adapter”它能自主判断当前通过“桥梁”传输哪些信息Condition对动作最有用然后只把这些“最优条件”注入到动作策略中。VL 到 A 的桥梁怎么搭视觉看和语言读的信息统称VL与机器人关节怎么动Action的信息本质上是两种完全不同的数据。以前的人可能只是简单地把 VL 数据硬塞给动作网络。本文主要研究如何更有效地“桥接”Bridge这两个空间。解决方案VLA-Adapter先分析不是盲目设计而是先系统性地测试哪些信息Condition对动作生成最有用。再设计发明了Bridge Attention桥接注意力机制。这就好比一个智能过滤器它知道在这一秒应该把视觉里的哪些特征、语言里的哪些指令“注入”给动作模块而不是一股脑全塞进去。结果用极小的模型Tiny-scale backbone实现了极高的性能。以前没人系统研究过“桥接范式”怎么影响动作本文是第一个研究明白并给出结论的。本文还提出了 VLA-Adapter 这个具体的方法真正解决了 VL 到 A 的传输问题。设计的模型更准、更小、更便宜、更快。二解决方案1.大模型里有几十层网络到底哪一层的信息对机器人动作最有用-为此作者设计了详细的对比实验主要关注如下方面是用某一层的信号还是用所有层的信号是用通用的图像特征Raw还是用那个专门的“提问者”特征ActionQuery1.1对于普通特征Raw中间层深层。深层Deep Layer大模型的深层通常处理高度抽象的语义例如“这是一个杯子”。中间层Middle Layer包含几何和空间信息例如“杯子边缘在坐标 x,y它是圆的”。机器人伸手抓东西更需要知道东西在哪几何信息而不是知道它的哲学定义语义信息。所以深层特征反而不好用中间层最好。1.2对于专用特征ActionQuery深层浅层。ActionQuery 是一个特殊的、从零训练的向量。它的任务是从头走到尾“收集”信息。走得越深它收集到的综合信息包括视觉、语言、空间就越全。所以它必须等到最后深层才最强。1.3既然不同层有不同的好有的懂几何有的懂语义最稳妥的办法就是把所有层的信息都利用起来。这不仅效果最好而且省去了人工去猜哪一层最好的麻烦。2.带有桥接注意力机制的策略网络 (POLICY WITH BRIDGE ATTENTION)2.1 Bridge Attention (三合一注意力)普通的模型可能只是把图像和文字简单加起来。作者设计了一个精密的“过滤器”叫 Bridge Attention。CA1看环境细节。动作去查询 Raw Latent原始图像特征。这里加了一个参数g。这就像一个水龙头开关。模型会自动学习这个 g。如果当前任务需要精细的视觉操作比如穿针g就变大让更多视觉细节流进来如果不需要比如只是搬大箱子g就变小。这就是所谓的“自主注入最优条件”。CA2看任务意图和自身状态。动作去查询 ActionQuery任务意图和 Proprioception自身状态。这告诉机器人“我要干什么”以及“我现在在哪”。SA看动作连贯性。动作查询自己。确保生成的动作前后连贯不是乱抖动。最后把这三路信息拼起来Concatenate就得到了综合决策。桥接注意力旨在通过条件 CtR 和 CtAQ最大程度地引导动作生成。每个桥接注意力模块包含两个交叉注意力和一个自注意力。为了选择性地将特定的CtR注入到策略网络的动作空间中引入了一个可学习参数比率g来调节 CA1的影响。g初始化为 0并使用 tanh 激活函数使得 tanh(g)∈[−1,1]以防止极值导致分布不稳定。将这三个注意力结果拼接起来得到 A~tτ作者还设计了一个基于 DiT的策略网络。由于策略网络的多样性不是本文的重点将详细信息和简要结果在附录 B 中。结果表明基于 L1 的架构在性能和推理速度上普遍优于基于 DiT 的方法。2.2.为什么不用扩散模型现在很流行用 Diffusion Model像生成图片的 Stable Diffusion 那样来生成机器人动作因为可以处理多模态分布比如同一个任务可以左手拿也可以右手拿。作者测试了 DiT但最终选择了简单的L1 Regression直接回归预测。其主要原因如下速度L1 只需要算一次扩散模型要反向去噪几十步太慢了。VLA-Adapter 追求的是极致的速度。性能在这个架构下L1 效果更好。结论简单粗暴有效符合“Tiny-scale”的要求。3.Training训练公式就是计算L1 Loss预测的动作和真实动作之间的绝对误差。虽然用了预训练的大模型Qwen作为视觉编码器但在训练这个 Adapter 策略时是一起调整的让整个系统协同工作端到端的策略。三实验所有实验均在4 张 NVIDIA H100 GPU上运行Q2.1 比设计机制验证也就是对比“别的连接方式”和“我的 Bridge Attention”。证明我的架构设计是更科学的。Q2.2 比结果SOTA 对比也就是对比“别人的模型如 Octo, OpenVLA”和“我的模型”。证明我的实战效果是最好的。Q2.3 比细节组件分析也就是模型内部的“体检”。看看具体是哪个零件比如那个参数 g或者特定层起了关键作用。四总结提出了VLA-Adapter这是一种用于 VLA 的新颖且高效的桥接范式。通过利用原始潜变量Raw latent*和*动作查询潜变量ActionQuery latent该方法有效地将多模态知识传输给策略网络以生成动作。实验表明VLA-Adapter 使用微型主干网络就实现了SOTA的性能。即使在冻结 VLM的情况下它也表现出强大的性能。此外本文的方法显存占用低推理速度快。VLA-Adapter缓解了 VLA 对大规模 VLM 和巨大训练成本的依赖降低了部署 VLA 的门槛。冻结模型效果也可以在训练时可以选择不更新那个 0.5B 的主干网络只训练后面那一点点 Adapter 参数。这将训练成本进一步压缩到了极致。如果冻结主干显存占用会更低训练速度会更快。这证明了 VLA-Adapter 这个架构本身的强大它不需要靠改变主干网络的认知来凑合动作而是真的能从现有的主干中提取出有效信息。

网站建设目标及需求临漳网站建设

网站规划怎么备案域名

制图网站服务网站建设企业

python网站开发好吗可以发布免费广告的平台

广州做网站星珀iis7 wordpress 伪静态规则

自己做个网站用什么软件好中国临海门户网站工程建设

乱码网站怎么办公司网站维护