做图库网站用什么系统软件公司起名大全免费版-万宁市网站建设公司-Seo优化

做图库网站用什么系统软件,公司起名大全免费版,专门网页制作工具有,网络营销哪些公司好做呢摘要本次学习聚焦于RL的基本机制、与监督学习的区别、动作评估方法的演进#xff0c;以及策略梯度#xff08;Policy Gradient#xff09;算法的核心原理。通过逐步引入不同版本的训练方法#xff0c;澄清常见误区#xff0c;并结合游戏示例和算法演示#xff0c;系统讲解…摘要本次学习聚焦于RL的基本机制、与监督学习的区别、动作评估方法的演进以及策略梯度Policy Gradient算法的核心原理。通过逐步引入不同版本的训练方法澄清常见误区并结合游戏示例和算法演示系统讲解了如何让代理Actor通过与环境互动学习最优策略AbstractThis learning session focuses on the fundamental mechanisms of RL, its distinctions from supervised learning, the evolution of action assessment methods, and the core principles of the Policy Gradient algorithm. By gradually introducing different versions of training methods, common misconceptions are clarified. The session systematically explains how to enable agents (actors) to learn optimal strategies through interaction with the environment, incorporating game examples and algorithm demonstrations.一问题回顾接到上周学习代理避免某些动作如不频繁开火一种方式就如前面“太空侵略者”游戏的例子太空飞船有左右移动以及开火的三个行动若想什么事都不做的的话这个就要在原来三个动作上再定义一个“Do Nothing”的动作。另一种方式是为不同动作赋予分数然后通过采样选择动作概率与分数正相关。这样可以柔和控制动作偏好而非硬性禁止。二A的定义下面我们开始回答上节课最后的问题如何定义A。1.Version 0初始错误方法先了解一个最简单但是不正确的版本0首先还是要收集一些资料也就是S与A的组合。这个收集就需要先有一个actor与环境互动接着就可以收集到{SiAi}的组合而这个actor并不是我们训练出来的而是一个随机的actor。通过在这个在收集资料过程中不会只将actor与环境做一个集合而是做多个集合从而可以收集到足够的资料。记录好每一个观测对应的行动后就对每一个行动进行评价好坏评价完就拿结果来训练我们的actor。对于如何评价前面提到是通过A来评价是否希望actor采取某一个行为。简单的方式就是例如通过通过得到的得到奖励若这个反馈为正则可能就代表这个行动是好的。若是负的就表示这个行动是不好的。这里将将等等。在开始也说了版本0是一个不好的版本因为用上面定义出A的方法训练出的actor是目光短浅的无法处理复杂任务。就如在“太空侵略者”游戏中左右移动是不加分的而只有开火射击到外星人才有加分这样机器就学到疯狂开火而已。因为我们知道每一个行动都会相互影响接下来事情的发展。就如图中的actor在下得到从而得到这个并不是互动的全部因为会影响接下来的,从而影响到a₂以及r₂所以每一个行为并不是独立的。这就引出了奖励延迟这个概念就是有时候就需要牺牲短期的利益换取长期的目标。2.Version 1引入累积奖励所以接下来正式进入RL的领域真正看策略梯度是如何运行的也就是版本1。在版本1中a1有多好并不是取决于而是取决于a₁之后发生的所有事情。也就是使用从当前动作开始的所有未来奖励累积作为评估G₁ r₁ r₂ ... rₙG₂就是r₂之后到rₙ之间的加起来。这些G就称之为累计奖励。这样通过G来评价一个行动的好坏就合理也解决了在版本0中遇到的问题。但是仔细想下就会发现这还是有问题的。假设游戏周期非常长将归功于a₁是不合适的。我们知道a₁对于前面的r是有很大的影响但是这个影响越往后效果是越低的甚至到最后都可能没有影响。3.Version 2折扣累积奖励所以在这个基础上有了版本2就是在版本1中G的r的前面乘上折扣因子γ它的值小于1同时距离当前采取行动得到r越远γ的次方就会越大从A就用来表示。对于越往后其奖励所占权重越低是不是就不适合只有结尾才有分数的任务就如下围棋呢这也不是不行在最早的AlphaGo采取的就是这个方式最后也是运行起来了。4.Version 3归一化和基线在任务中结果做的好坏都是相对的就比如对某个行动其最低评分为10分所以当行动得到10分是其就算是差的但是如果最高评分是10分结果又变成好的了。所以若我们只是单纯的将G算出就会遇到一个问题若在任务中拿到的永远都是正的分数只是高低的不同。这时G算出来就是正的有的行为是不好的但是其仍会鼓励模型去执行这些行动从而就需要采取标准化。采取标准化采取一个最简单的方法就是所有的G都减去一个b。这个b在RL文件中被称为基线Baseline。这个目的就是为了让G能够有正有负。对于如何确定一个好的b后面会再进行学习。三策略梯度Policy Gradient1.策略梯度的运行下面就开始了解策略梯度是如何运行的。首先要随机初始化actor的参数θ接下来就是进入训练迭代这里假设要进行T个训练迭代。一开始用初始actor与环境互动便得到并收集很多的episode数据。接着用折扣累积奖励减基线评估每个动作也就是用到评价前面的行动是否好坏。然后定义损失函数L动作分数越高损失越小最后就更新模型这个更新过程跟梯度下降是一模一样的会计算L的梯度并在前面乘上学习率然后去更新模型。但是这个过程中有一个神奇的地方就是到我们目前的训练数据收集都是在循环之外。而在RL收集资料这一段是在for循环里面这样就会导致当循环多少次模型就要收集多少次数据。用图像表示如下左边框中就是我们收集到的资料观察某个actor每一个状况下执行的行动并与之评价。有了这些资料就可以去训练我们的actor以及定义Loss然后更新一次参数这里是只能更新一次。一但更新完一次参数就要去重新收集资料收集资料后再更新下一次参数。这也是为什么RL训练的过程非常的花时间。这就有疑问为什么不能直接一组资料拿来更新模型多次后就结束呢因为这些资料都是由θi-1收集的这个θi-1是与环境互动的结果和经验其是可以用来更新θi-1以及其参数。但是其收集的资料就不一定适合更新θi的参数如围棋中同一招对不同水平意义不同。2.同策略与异策略(On-Policy Off-Policy)我们前面训练的actor与环境互动的actor都是同一个这个方式就叫做同策略On-Policy相反的若训练的actor与环境互动的actor不一致就叫做异策略Off-Policy。异策略允许复用不同策略数据这样能够提高样本效率。在异策略中一个经典的方法就是近端策略优化算法Proximal Policy OptimizationPPO。其重点就是要知道训练的actor与和环境互动的actor的差距。3.探索Exploration前面就已经了解到actor采取行为时是有随机性的这个随机性非常重要不足时甚至导致训练actor不成功。就如在前面举例游戏中初始actor只会向右移动不知道开火若其没采用过开火行为其就永远不知道还有开火这个选项是好还是坏。所以我们也会期待与环境互动的actor随机性大一点这样就可以收集到比较多比较丰富的资料。甚至在训练时会可以放大它的随机性或者在actor的参数上加噪音。总结系统的了解了强化学习从基本动作评估到策略梯度优化的完整路径解决了奖励延迟、信用分配和探索等核心挑战。通过折扣机制和基线代理能有效处理长期规划On-Policy循环确保数据与策略一致实际演示证明了方法在游戏和机器人任务中的可行性。同时深刻理解RL为何适合交互式决策任务掌握策略梯度作为Actor训练的基础框架。未来可进一步探索Actor-Critic、价值函数等扩展。视频讲解逻辑严谨、示例生动便于深入掌握强化学习本质。

做图库网站用什么系统软件公司起名大全免费版

全国物流网站有哪些平台网页游戏网站4399

网站页面报价邢台市住房和城乡建设局网站

淄博亿泰网站建设推广哪里去找做的好看的网站

asp 网站 500vps 网站权限

水友做的yyf网站网站怎么容易被百度收录

网站建设第三方平台私密浏览器免费版