高平市规建设局网站微信公众号手机上传wordpress

张小明 2026/1/7 11:10:26
高平市规建设局网站,微信公众号手机上传wordpress,网站制作深,wordpress+用户中心插件人工智能研究中#xff0c;Yann LeCun#xff08;杨立昆#xff09;有一个独特且经常引起争议的观点。他认为仅靠以语言为中心、基于预测下一个词的规模化模型#xff0c;无法通向真正具备常识、因果理解和规划能力的通用智能#xff1b;它们缺乏对物理世界的内在表征与世…人工智能研究中Yann LeCun杨立昆有一个独特且经常引起争议的观点。他认为仅靠以语言为中心、基于预测下一个词的规模化模型无法通向真正具备常识、因果理解和规划能力的通用智能它们缺乏对物理世界的内在表征与世界模型无法自主学习和可靠推理因此最多是强大的工具而不是通往 AGI 的终极路径。在他的《通往自主机器智能的道路》的重要立场论文中他提出了实现人工智能的替代框架。他还提出了一种预测世界模型的新架构: 联合嵌入预测架构 (Joint Embedding Predictive ArchitectureJEPA)。Yann LeCun已经离开了Meta他的学术成果仍然在Meta发挥余热。刚刚Meta FAIR、香港科技大学、索邦大学、纽约大学联合发布了一个基于JEPA的视觉-语言模型VL-JEPA。VL-JEPA架构彻底抛弃了传统视觉语言模型逐个Token生成的低效模式转而在抽象的嵌入空间中直接预测语义以一半的参数量实现了SOTA的性能并为实时视频理解带来了近3倍的效率提升。回归语义本质现在的AI界都是被基于Transformer的自回归模型统治。给AI看一张图它就像个絮絮叨叨的解说员必须一个词接一个词地往外蹦句子。这种方式看似直观实则在训练和推理上都极其昂贵。Yann LeCun早已对这种低效模式感到不满。这篇论文的研究者也认为智能的核心在于理解和预测而不在于是否能把每一句话都修饰得文采飞扬。基于这种理念他们推出了VL-JEPA的视觉语言模型。传统模型在训练时不得不关注每一个单词的选择、句式的排列甚至语气的模仿。这对理解图像内容来说其实是巨大的浪费。就像你问一个人“灯关了吗”他回答“灯灭了”或者“房间变暗了”在意思上是完全一样的但在传统的训练中模型却要为了这两个在字面上完全正交不重叠的句子耗费大量算力去拟合。VL-JEPA换了一种活法。它不再执着于预测下一个单词是什么而是直接预测目标文本在数学空间中的“坐标”——也就是连续的语义嵌入Embeddings。在这个高维空间里“灯灭了”和“房间变暗了”的坐标靠得非常近。模型只需要学会指那个方向而不需要纠结具体用哪个词来描述。这种非生成式Non-generative的设计让模型得以剥离掉那些与任务无关的语言表象专注于最核心的语义信息。这不仅简化了学习目标更让模型在参数量减少50%的情况下依然能打出比肩甚至超越庞大生成式模型的战绩。架构的精密运转逻辑VL-JEPA的设计哲学体现在其精简而高效的四个核心组件中。这套架构不需要在那儿猜词而是通过计算向量的距离来理解世界。X-Encoder视觉编码器负责看。它接收视频或图像输入将其压缩成一串紧凑的视觉嵌入向量。这里研究团队选用的是冻结参数的V-JEPA 2 ViT-L模型。这个模型本身就在自监督视觉任务上表现优异能把复杂的视频画面浓缩成高密度的信息流。Y-Encoder文本编码器负责听和理解目标。它将目标文本比如问题的答案或图片的描述映射到一个连续的潜在空间中。这个空间就是模型学习的靶场。在这个空间里语义相近的句子会聚在一起无关的信息被过滤。这一步至关重要它决定了模型思考的质量。Predictor预测器是整个架构的大脑。它接收来自X-Encoder的视觉信息同时接收一个文本查询Query比如“这人在干嘛”然后它的任务就是预测出Y-Encoder会生成什么样的嵌入向量。注意它预测的是一个数学向量而不是具体的文字。这部分采用的是Llama-3的Transformer层进行初始化让它天生就具备一定的语言理解底子。Y-Decoder文本解码器是一个轻量级的翻译官。它在训练阶段完全不参与只有在人类真的需要看文字结果时它才会被唤醒把模型预测出来的数学向量翻译成人类能读懂的句子。这套系统的训练目标非常纯粹最小化预测出的嵌入向量和真实文本嵌入向量之间的距离。为了防止模型偷懒比如把所有输入都映射成同一个点团队使用了InfoNCE损失函数。这种对比学习的方法一边拉近正确答案的距离一边把无关的干扰项推远迫使模型在那个抽象的数学空间里构建出清晰的语义地图。这种设计让VL-JEPA在处理那些没有标准答案的任务时如鱼得水。在真实世界里同一个动作的描述千变万化传统模型要在离散的词表中寻找唯一解极其痛苦而VL-JEPA只需要在连续空间里找到那个语义聚类中心即可。选择性解码艺术视频理解一直是AI领域的硬骨头尤其是实时视频流。以前的模型每一帧都要处理每一秒都要尝试生成描述计算量大到无法在可穿戴设备或机器人上实时运行。VL-JEPA在这里展现了它作为非自回归模型的巨大优势。由于VL-JEPA输出的是连续的语义嵌入流它可以像心电图一样实时监测这个信号的变化。如果画面中的语义没有发生剧烈波动模型就保持沉默不做任何繁重的文字解码工作。只有当监测到的语义方差超过某个阈值——意味着画面中发生了新的事件时它才唤醒解码器输出一段文字描述。这种选择性解码Selective Decoding机制让计算资源得到了极致的优化。实验数据显示在保证同等语义捕捉质量CIDEr分数的前提下VL-JEPA的解码操作次数减少了约2.85倍。对于智能眼镜、家庭机器人这种对延迟和功耗极其敏感的设备来说这几乎是质的飞跃。模型可以始终在线观察世界但只在必要时开口汇报既省电又敏捷。相比之下传统的VLM视觉语言模型受限于自回归的生成方式必须把上一个词算出来才能算下一个词这不仅延迟高而且无法在生成过程中动态更新语义。VL-JEPA的嵌入流则是并行的、连续的能跟随视频流即时刷新对世界的认知。在严苛对比下的性能统治力为了证明这套架构不仅仅是理论上好听Meta团队进行了一场极其严苛的对比实验。他们构建了一个对照组一个标准的Token生成式VLM。这个对照组使用了完全相同的视觉编码器、相同的空间分辨率、相同的帧率、完全一样的训练数据包括DataComp、YFCC-100M等海量图文对以及HowTo100M视频数据、一样的Batch Size甚至训练迭代次数都一模一样。唯一的区别就在于一个是在数据空间里预测Token一个是在潜在空间里预测Embedding。结果令人信服。在同等算力预算下VL-JEPA在零样本Zero-shot分类和描述任务上性能曲线爬升得比传统VLM快得多。在训练了500万个样本后VL-JEPA的Top-5分类准确率达到了35.3%而对照组只有27.2%。这种差距随着训练的进行一直保持着。更关键的是VL-JEPA的训练参数只有1.6B16亿比许多动辄百亿参数的大模型轻量得多却干出了更好的活。在广泛的视频分类和检索基准测试中VL-JEPA的表现全面超越了CLIP、SigLIP2和Perception Encoder这些赫赫有名的前辈。特别是在SSv2、EgoExo4D这种强调动作和过程的视频数据集上VL-JEPA的优势尤为明显。这说明它不仅仅是看懂了画面里的物体外观更看懂了物体在如何运动和交互动态。VL-JEPA不仅仅是一个只会看视频的分类器经过第二阶段的监督微调SFT后它摇身一变成了一个全能选手。在视觉问答VQA任务上尽管参数量只有1.6BVL-JEPA依然与InstructBLIP、Qwen-VL这些大块头打得有来有回。在GQA组合视觉推理、TallyQA复杂计数以及POPE物体幻觉检测等数据集上它的表现都接近了SOTA水平。更令人兴奋的是它在世界预测World Prediction任务上的表现。这个任务要求模型看一张起始图和一张终点图然后判断中间发生了什么动作。这实际上是在测试模型是否理解物理世界的因果关系。在这个领域VL-JEPA不仅击败了同量级的VLM甚至在准确率上超过了GPT-4o、Claude-3.5和Gemini-2这些顶级的大语言模型。虽然这些大模型拥有千亿级的参数但在纯粹的视觉因果推理上专注于嵌入空间预测的VL-JEPA展现出了更敏锐的物理直觉。这种能力意味着VL-JEPA非常适合作为具身智能Embodied AI的大脑。机器人需要理解它所处环境的物理规律预测自己动作的后果而不需要每一步都停下来写一篇小作文来分析现状。Meta团队还非常诚实地展示了各种失败的尝试告诉大家什么行得通什么行不通。关于预训练他们发现如果跳过第一阶段的海量图文预训练直接上SFT分类准确率会暴跌21.7%。这说明地基必须打牢没有大规模数据的浸泡模型学不到通用的视觉语言对齐。关于学习率Y-Encoder的学习率必须非常小心地调整。实验表明给文本编码器设置0.05到0.1倍的学习率乘数是最佳甜点。太快了模型会发散太慢了学不动。关于损失函数InfoNCE展现了统治力。相比于简单的余弦距离Cosine或L1/L2距离InfoNCE自带的抗坍缩Anti-collapse属性对于维持嵌入空间的多样性至关重要。虽然在VQA任务上余弦距离表现稍好但在分类和检索等通用任务上InfoNCE是绝对的最优解。有趣的是他们还尝试了不同的文本编码器。虽然默认使用的是EmbeddingGemma-300M但实验证明更大的编码器确实能带来更好的性能。特别是那些视觉对齐过的文本编码器如PE模型能让分类和检索分数进一步上涨。这暗示了VL-JEPA架构还有巨大的潜力可挖只要换上更强的组件性能天花板还能往上顶。VL-JEPA标志着视觉语言模型从学会说话向学会思考迈出了坚实的一步。参考资料https://arxiv.org/pdf/2512.10942https://openreview.net/pdf?idBZ5a1r-kVsf
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

可以发外链的网站整理怎么样做外链推广网站

Python 中的进程与线程管理实用指南 1. 替代复杂 Shell 管道的方法 在处理复杂的 Shell 管道时,Python 有内置的等效方法。例如,使用 pwd 模块来替代 Subprocess 完成一些操作。以下是具体示例: import pwd # 获取 root 用户信息 print(pwd.getpwnam(root)) # 输出:…

张小明 2026/1/5 8:19:35 网站建设

厦门网站制作软件wordpress编辑器返回经典

用Arduino Uno打造智能温湿度报警器:从零开始的实战项目 你有没有过这样的经历?夏天回到家中,发现房间闷热潮湿;或是打开储物柜,闻到一股霉味——只因为没人及时察觉环境变化。其实,一个能“说话”的小装置…

张小明 2026/1/2 15:50:11 网站建设

个人网站的建设参考文献软件专业

用QTimer::singleShot写出流畅不卡顿的 Qt 程序:从防抖到状态过渡的实战指南你有没有遇到过这样的场景?用户点了个按钮,界面瞬间“死”了三秒;登录失败后立即又能点击,结果请求发了五六次;启动页一闪而过&a…

张小明 2025/12/30 5:03:37 网站建设

福州网站建设公司哪家好如何做视频网站首页

第一章:智谱Open-AutoGLM Chrome插件概述智谱Open-AutoGLM Chrome插件是一款专为提升网页端大模型交互效率而设计的浏览器扩展工具。该插件集成AutoGLM智能体能力,可在用户浏览任意网页时,自动识别页面内容并提供上下文感知的AI辅助服务&…

张小明 2025/12/30 5:03:04 网站建设

国家级建设网站汉阳网站建设

工智能代理(AI Agents)正逐渐成为现代软件开发的重要组成部分,它们能够结合推理、上下文和工具来追求特定目标。然而,许多开发人员在构建 AI 代理时面临复杂编排逻辑、多模型连接困难以及部署基础设施繁琐等问题。Microsoft 代理框…

张小明 2025/12/30 5:02:29 网站建设

重庆响应式网站建设费用学校网站php源码

Flame引擎程序化地形生成:告别手动设计的创新方案 【免费下载链接】flame A Flutter based game engine. 项目地址: https://gitcode.com/GitHub_Trending/fl/flame 还在为游戏地图的重复设计而烦恼?传统的手工绘制方式不仅耗时耗力,还…

张小明 2025/12/30 5:01:54 网站建设