哪个网站可以卖自己做的模型,网站推广优化c重庆,哈尔滨门户网站建设,安装php网站基于模型的强化学习
环境的模型#xff08;Model#xff09;是一个智能体可以用来预测环境对其动作的反应的任何事物。给定一个状态和一个动作#xff0c;模型能产生后继状态和下一个收益的预测作为环境的反应结果。根据是否有模型参与#xff0c;强化学习算法可分为基于模…基于模型的强化学习环境的模型Model是一个智能体可以用来预测环境对其动作的反应的任何事物。给定一个状态和一个动作模型能产生后继状态和下一个收益的预测作为环境的反应结果。根据是否有模型参与强化学习算法可分为基于模型的强化学习Model-Based RLMBRL和无模型强化学习Model-Free RLMFRL。在【深度强化学习】和【分层强化学习】中我们探讨的都是MFRL它们将环境视为一个黑箱智能体直接从与环境交互获得的经验数据中学习价值函数或策略而不会尝试理解环境的内部运作机制。这种黑箱式的学习往往存在样本效率低下的瓶颈需要与环境进行大量的交互才能掌握一项复杂任务在现实世界中更会带来庞大的训练成本和极高的安全隐患。即使有仿真技术的加持其对于复杂环境也需要巨大的专家知识和工程投入并且不可避免地会与现实存在偏差现实鸿沟。基于上述缺陷MBRL提出智能体应该主动学习一个环境动力学模型作为其内部的、可改进的“仿真器”以辅助决策。拥有环境模型作为信息补充MBRL相较于MFRL可以有如下优势样本效率能够利用环境模型进行内部规划或想象减少对真实经验的依赖泛化能力环境模型的学习可以从见过的状态推理泛化到未见过的状态并可以通过在线学习快速微调适应新环境或弥补现实鸿沟探索效率能够根据环境模型判断状态的探索优先级从而在复杂状态空间中进行有效的探索。在MBRL中模型的使用方式主要有以下两种其一是用于数据增强Data Augmentation即利用内部模型合成的数据来扩增策略的训练数据提升策略的训练效率该用途可以与MFRL相结合其二是用于规划Planning即在决策阶段智能体先使用模型进行多步推演rollout选择最优动作序列执行其第一步不依赖显式的策略网络而是实时思考。需要注意的是MBRL和MFRL并非对立MBRL大多是以模型为核心、内嵌MFRL更新的混合架构只要显式学习并利用了模型算法就归属于MBRL范式。Dyna架构Dyna架构1990是基于表格型方法被提出的经典MBRL方法对现代MBRL产生了深远影响。它将环境模型无缝引入MFRL交替使用模型采样和环境采样使得二者的优缺点得到了良好的互补。Dyna的核心思想是对一个智能体来说与环境交互得到的经验可以扮演两个角色它能用来改进模型或是直接更新价值函数和策略。前者称为模型学习后者则称为直接强化学习。改进后的模型则通过规划影响价值函数和策略这种与规划相关的方式称为间接强化学习。直接强化学习类似于试错学习和被动的反应式决策而间接强化学习则代表了原理认知和主动的预谋性规划。下图展示了经验、模型、价值和策略之间的关系Dyna架构的提出者Sutton在《强化学习第二版》介绍该方法时虽然用“规划”来描述模型的作用但根据博主研究Dyna架构下的规划并非前文提及的现代MBRL下完全意义的规划其核心仍是利用模型作为数据生成器为价值函数和策略的更新提供额外的虚拟经验。Dyna-QDyna-Q是Dyna架构的一个具体的经典实现其通过Q学习进行直接强化学习更新和规划更新。Dyna-Q的模型学习方法也是基于表格的并且假设环境是确定的。在每次转移St,At→Rt1,St1S_t,A_t\rightarrow R_{t1},S_{t1}St,At→Rt1,St1之后模型在它的表格中会为St,AtS_t,A_tSt,At建立条目记录环境在这种情况下产生的转移结果的预测值Rt1,St1R_{t1},S_{t1}Rt1,St1。规划过程中算法将随机从模型之前学习到的“状态-动作”二元组进行采样并返回历史观测值。从概念上讲规划、动作执行、模型学习和直接强化学习在Dyna的智能体中是并行进行的但在串行计算机中我们需要指定它们的发生顺序。动作执行、模型学习和直接强化学习过程只需要很少的计算而规划则需要计算密集的迭代过程因此我们在每次循环中先执行前者最后将剩余的计算用于规划。根据这一思想我们给出Dyna-Q的算法流程。令Model(s,a)Model(s,a)Model(s,a)基于“状态-动作”二元组(s,a)(s,a)(s,a)预测后继状态和收益policy(S,Q)policy(S,Q)policy(S,Q)是状态SSS下针对QQQ的ϵ\epsilonϵ-贪心策略更新Q值的方式为Q(St,At)←Q(St,At)α[Rt1γmaxaQ(St1,a)−Q(St,At)] Q(S_t,A_t)\leftarrow Q(S_t,A_t)\alpha[R_{t1}\gamma\underset a\max Q(S_{t1},a)-Q(S_t,A_t)]Q(St,At)←Q(St,At)α[Rt1γamaxQ(St1,a)−Q(St,At)]则表格型Dyna-Q算法的伪代码如下对所有的s∈Ss\in\mathcal Ss∈S和a∈A(s)a\in\mathcal A(s)a∈A(s)初始化Q(s,a)Q(s,a)Q(s,a)和Model(s,a)Model(s,a)Model(s,a)循环S←S\leftarrowS←当前非终止状态A←policy(S,Q)A\leftarrow policy(S,Q)A←policy(S,Q)采取动作AAA观察产生的收益RRR和状态S′SS′根据(S,A,R,S′)(S,A,R,S)(S,A,R,S′)更新Q值Model(S,A)←R,S′Model(S,A)\leftarrow R,SModel(S,A)←R,S′假设环境是确定的重复nnn次循环S←S\leftarrowS←随机选择之前观察到的状态A←A\leftarrowA←随机选择之前在状态SSS下采取过的动作AAAR,S′←Model(S,A)R,S\leftarrow Model(S,A)R,S′←Model(S,A)根据(S,A,R,S′)(S,A,R,S)(S,A,R,S′)更新Q值。Dyna-QDyna-Q假设环境是确定的此时模型总是被填充完全正确的信息。但在更多时候我们没有这么幸运以下这些原因都会导致模型错误环境是随机的且只有数量有限的样本会被观察到模型用于近似环境的函数泛化能力较差环境发生改变且新的动态特性尚未被观察到。当模型错误时规划过程就可能计算出次优的策略。在某些情况下规划计算出的次优策略能使得Dyna-Q很快发现并修正模型错误例如环境变化导致原始最优策略的回报大大降低模型能很快沿着策略所在路径感知到自身信息和环境不匹配进而修正错误。但如果这种变化对原始最优策略没有影响而是产生了原始最优策略之外的捷径那么Dyna-Q将很难摆脱对原始最优策略的依赖去探索更优的策略。Dyna-Q在Dyna-Q的基础上采用启发式方法在一定程度上克服了这种问题。Dyna-Q的智能体会对每一个“状态-动作”二元组进行跟踪记录它自上一次在与环境进行真实交互以来已经过了多少时刻。时间越长我们就越有理由推测这个二元组相关的环境动态特性会产生变化也即关于它的模型是不正确的。为了鼓励测试长期未出现过的“状态-动作”二元组一个和未出现时间相关的“额外收益”将会提供给智能体。如果模型记录的单步转移收益为rrr而这个转移在τ\tauτ时刻内没有尝试那么在更新时就会采用rκτr\kappa\sqrt\taurκτ的收益其中κ\kappaκ是一个比较小的正数。这会鼓励智能体不断试探所有可访问的状态转移甚至使用一长串的动作完成这种试探。Dyna架构虽受限于其表格形式和确定性假设但其中“虚实结合、模型辅助决策”的核心思想却直接启发了现代MBRL的发展。如今随着深度表示学习、概率建模与高效规划算法的进步现代MBRL方法已能在高维连续空间中学习复杂的环境动力学模型实现更高效的样本利用、更鲁棒的策略学习以及更自主的想象式规划将在后续逐步介绍。系列前瞻本系列后续算法更新规划如下暂定PETS带有轨迹采样的概率集成模型MBPO基于模型的策略优化PlaNet潜在空间深度规划网络MuZero现代树搜索【世界模型】作为【基于模型的强化学习】的一个高级主题将在其后作为一个子系列更新这方面尚待调研大概率包含的算法如下引论2018年《World Models》论文DreamerV1DreamerV2DreamerV3SVGStochastic Video GenerationDiffusion Policy / Decision Diffuser