在深圳做网站大学生网站开发-万宁市网站建设公司-Seo优化

在深圳做网站,大学生网站开发,网络工程师证书难考吗,怎样做才能让网站帮忙送东西作者 | wangleineo 来源 | 青稞AI原文链接#xff1a;https://zhuanlan.zhihu.com/p/1972781108128155202 点击下方卡片#xff0c;关注“自动驾驶之心”公众号戳我- 领取自动驾驶近30个方向学习路线自动驾驶前沿信息获取→自动驾驶之心知识星球本文只做学术分享…作者 | wangleineo 来源 | 青稞AI原文链接https://zhuanlan.zhihu.com/p/1972781108128155202点击下方卡片关注“自动驾驶之心”公众号戳我-领取自动驾驶近30个方向学习路线自动驾驶前沿信息获取→自动驾驶之心知识星球本文只做学术分享如有侵权联系删文最近看了几篇关于RL学习的论文发现这几篇研究存在着一些内在联系综合起来看也许有助于我们理解RL学习方法的本质。破除迷信Does RLVR enable LLMs to self-improve第一篇文章是最近备受关注的一篇论文来自清华的LEAP实验室在今年的NeurIPS拿下了全满分获得最佳论文奖https://arxiv.org/abs/2504.13837这篇论文开宗明义提出了一个问题RL学习真的能让LLM获得超越基础模型的推理能力吗研究结论很确切不能。论文用实验证明RLVR后模型的能力完全在基础模型的能力范围内只是搜索效率提高了能更高效地找到问题的解。而基础模型不能解决的问题RLVR的模型一样不能解决。证明的方式就是用passK生成 K次结果只要有一次通过就算通过的评估方式来比较RL模型和基模的表现。论文发现在 1的时候RL模型的表现都会好于基模但是随着K的增大和基模的表现越来越接近直到在K较大时RL被基模超越。而且这个结论对于各种RL方法PPO/GRPO等在各种评估测试集数学、代码、视觉推理各种模型大小上面都适用。Base VS RL on passk之所以用passK的评估方式是因为这个研究并不是为了测量模型的实际性能而是为了衡量模型内在能力的边界boundary。事实证明RLVR并没有真正拓展这个边界而只是在边界内高效寻找到了解决问题的路径而已。RL同时收窄了推理路径的范围coverage所以在K较大时反而没有基础模型的表现更好。更进一步分析模型的精确度分布我们发现RL的模型呈现两极分化的特征在高精确度上特别集中而在低精确度上的表现不如基模精确度为零的概率反而较高。RL训练后的模型就像是一个严重偏科的学生会做的题目都能打满分但是对于不会做的题目猜对的概率还不如普通的学生。对于两种模型表现的比对可以进一步证明上面的结论有很多题目RL没有解决但是基模能解决但是反过来基模不能解决RL能解决的题目几乎不存在下表中第三行百分比接近于零。与RL学习不同Distillation学习SFT方式可以拓展模型的能力让模型学会解决原来不能解决的问题RL学习这种限制的主要原因被认为是在语言广阔的探索空间中预训练先验prior存在“双刃剑”效应。虽然先验使强化学习训练变得可行但它也限制了探索因为任何偏离都可能导致低奖励输出。因此强化学习算法会强化先验内的解决方案而不是发现其外的创新路径。这篇文章只是验证了一个假设并没有否定RL学习方法本身的价值。基础模型和RL模型的对比就像是通才generalist和专才specialist的对比在解决具体领域问题的时候往往还是专才能堪大用我们也会容忍专才的偏执和狭窄的视野。当然文章最后也提出也许我们能找到一种训练方法平衡模型的exploration和exploitation让模型在提高效果的同时不收窄探索的范围。更新经评论区小伙伴提醒有其他论文提出了貌似完全相反的结论https://arxiv.org/pdf/2509.25123看来这个课题还远远没有定论。用一个capability来概括LLM能学习的能力也许过于泛化可能我们需要一个细化的capability taxonomy做更加科学的Ablation研究和分类实验。探究原因 - The Path Not Taken为什么RL训练会有这样的效果呢另一篇来自Meta的论文也许给出了解释https://arxiv.org/abs/2511.08567z z研究者认为RL训练有一个特征参数更新高度局部化。文章把它称为model-conditioned optimization bias:For a fixed pretrained model, updates consistently localize to model-preferred parameter regions, remain highly consistent across runs, and are largely invariant to datasets and RL recipes.文章用两个很形象的图来表示了这个特征SFT训练的过程就像是越野走的路径百无禁忌可以爬山下谷而RL训练的过程像是带着一个指南针按照这个指南针的指引在相对平坦的地面上谨小慎微地前行。这个指南针或者说这个optimization bias是从哪里来的呢作者提出了一个“三重门”的理论Gate I: On-Policy RL Imposes a One-Step KL LeashRL学习会限制每一步更新的KL分布让它接近模型的原有分布。就像给探索戴了一个狗链leash每一步都不会走太远向着更高奖励的方向小步前进。Gate II: Model Geometry Determines Where a KL-Bounded Step Goes一个经过预训练的模型它的参数空间会有一些结构化的几何特征会有一些高曲度的方向。可以直观地把它理解为探索空间的主山脉、深峡谷的走向。而RL训练的更新会尽量避开这些高曲度方向的更新采用尽量沿principal angle的方向更新。从参数矩阵的角度说矩阵的主向量和特征值都会大体保持原样。Gate III: Precision Acts as a Lens Revealing the Compass这重门的意思是在偏离主向量的方向上并不是没有更新但是更新的幅度很小。这就导致低精度的参数表示比如bfloat16就会起到一个过滤器的作用把这些幅度很小的更新直接归零。作者也在这里澄清了一个广为流传的误解RL产生的更新非常稀疏sparse。实际上RL更新的参数并不少只是一些小更新被参数的表示精度抹平了RLVR exhibits a persistent, model-conditioned optimization bias in where updates land—highly consistent across runs and largely invariant to datasets and RL recipes. The observed sparsity is a superficial readout of this bias, amplified by bf16 precision.关于这三重门的数学解释请参见论文这里不展开了。通过观察训练后参数空间的变化作者得出了以下结论• RLVR Preserves Spectral Geometry, While SFT Distorts It• RLVR Avoids Principal Weights, While SFT Targets Them• RLVR Relies on Model Geometry, Disrupting Geometry Destroys the Bias• RLVR signatures persist in agentic tasks and RLHF作者认为现有的一些RL训练方法比如PiSSA没有考虑到RL存在这种参数更新的特征所以效果不好。我们应该可以设计一些适用于RL的参数更新方法比如冻结主要权重而更新“非主要、低幅度的权重。”我们可能需要研究一些RL-native, geometry-aware 的算法来适配RL学习的这种特征。这项研究使我们从‘黑箱’视角转向对RL如何学习的‘白箱’理解。RL这种“循规蹈矩”的特点就大体上解释了第一篇论文中“RL为什么没有真正提高模型能力”的问题。灾难性遗忘 - 没有免费的午餐读到这你可能会问既然RL不能真正提高模型的能力而SFT可以那我们为什么不用SFT方式来做所有的训练呢这就不得不提到灾难性遗忘的问题。RLs razor这篇论文指出SFT训练会导致严重的灾难性遗忘而RL训练却不会。https://arxiv.org/abs/2509.04259关于这一篇论文我在另一篇文章中已经有解读在此不再赘述持续学习和灾难性遗忘[1]把这几篇论文的研究结论联系起来看我脑中想到了一个问题学习新技能和避免灾难性遗忘会不会是鱼与熊掌不可兼得我们看这个表格也许学习新能力和避免遗忘之间存在表中所展现的互斥性。如果是这样只能说天下没有免费的午餐只能在两者之间做权衡tradeoff看具体场景选择训练方案了。但也许原理上并不存在这样的互斥性也许我们可以二者兼得。最近Thinking Machines的一篇文章就是这个方向的一个探索。他们的方法叫做On-policy Distillation可理解为RL方法和SFT的一种“杂交”原理上是一种RL训练但过程又类似于SFT的蒸馏训练Thinking Machines新文章On-Policy Distillation[2]真希望第一篇论文的研究者能用他们的实验方法来测试一下TML的On-policy Distillation看看结果如何。如果OPD方法能• 通过蒸馏扩展模型的能力边界• 高效寻找推理路径• 避免灾难性遗忘那恐怕我们就找到了LLM模型训练的一个灵丹妙药能治百病又没有副作用。说不定就此开启了模型进化的新纪元呢。引用链接[1]持续学习和灾难性遗忘:https://zhuanlan.zhihu.com/p/1969174968651736270[2]Thinking Machines新文章On-Policy Distillation:https://www.zhihu.com/pin/1968462515513062544自动驾驶之心端到端与VLA自动驾驶小班课添加助理咨询课程知识星球交流社区

在深圳做网站大学生网站开发

钦州网站建设公司哪家好初中做网站的软件

有没有什么推荐的网站安徽招标网官网

网站建设策划书范本wordpress 七牛不更新

ps做网站首页设计教程软件外包公司值得去吗

出版社类网站模板凡客现在还能买吗

百度门户网站网站维护网站后台建设知识

在深圳做网站大学生网站开发

钦州网站建设公司哪家好初中做网站的软件

有没有什么推荐的网站安徽招标网官网

网站建设策划书范本wordpress 七牛不更新

ps做网站首页设计教程软件外包公司值得去吗

出版社类网站模板凡客现在还能买吗

百度门户网站网站维护 网站后台建设知识

百度门户网站网站维护网站后台建设知识