物流官方网站,重庆seowhy整站优化,织梦手机网站制作教程,苏州行业网站建设报价强化学习过程什么是 奖励函数 R(s,a,a′)R(s,a,a)R(s,a,a′)#xff1f;什么是 状态价值函数#xff1f;什么是 Bellman 最优方程#xff1f;策略 π\piπ#xff1a;代理的大脑强化学习 就是#xff1a;做一件事 → 立刻有好坏感受 → 把所有 将来的好坏 折算成 现在的分…强化学习过程什么是 奖励函数R ( s , a , a ′ ) R(s,a,a)R(s,a,a′)什么是 状态价值函数什么是 Bellman 最优方程策略π \piπ代理的大脑强化学习就是做一件事 →立刻有好坏感受→ 把所有将来的好坏折算成现在的分数强化学习过程参考阅读An Introduction to Deep Reinforcement Learning强化学习过程状态、动作、奖励和下一个状态的循环想象一个智能体正在学习玩平台游戏我们的 Agent 从环境中接收状态S 0 S_0S0—— 我们收到游戏的第一帧环境。基于状态S 0 S_0S0Agent 采取动作A 0 A_0A0—— 我们的 Agent 将向右移动。环境进入新的状态S 1 S_1S1—— 新的帧。环境向智能体给予一些奖励R 1 R_1R1—— 我们没有死亡正奖励 1 11这个强化学习循环输出状态、动作、奖励和下一个状态的序列。智能体的目标是最大化其累计奖励称为期望回报。什么是 奖励函数R ( s , a , a ′ ) R(s,a,a)R(s,a,a′)奖励函数 环境对你“这一步行为”的打分规则。奖励不是你自己决定的而是环境给你的反馈。用生活例子理解你在玩一个闯关游戏状态s ss你现在在第 3 步动作a aa你选择“向右走”下一状态s ′ ss′你走到了第 4 步这时游戏系统给你一个提示“10 分”过关或 “-1 分”撞墙或 “0 分”啥也没发生这个打分规则就是奖励函数。为什么写成R ( s , a , s ′ ) R(s,a,s)R(s,a,s′)三个变量因为奖励可能取决于这三件事。什么是 状态价值函数即时奖励r t 1 r_{t1}rt1你在第t tt步做完动作后立刻得到的奖励比如时间步你做的事得到的奖励t 0 t0t0向右走− 1 -1−1t 1 t1t1向右走− 1 -1−1t 2 t2t2到终点 10 1010折扣因子γ \gammaγ为什么未来的奖励不如现在的值钱想象两个选择现在给你100 100100块一年后给你100 100100块你更想要哪个现在的更值钱这就是折扣因子γ \gammaγ的直觉。γ t r t 1 \gamma^t r_{t1}γtrt1把“将来得到的奖励”按时间远近打折举个具体数值设γ 0.9 \gamma 0.9γ0.9时间奖励折扣后价值现在t 0 t0t0− 1 -1−1− 1 -1−1下一步t 1 t1t1− 1 -1−1− 0.9 -0.9−0.9再下一步t 2 t2t2 10 10100. 9 2 × 10 8.1 0.9^2 × 10 8.10.92×108.1离现在越远权重越小。状态价值函数从当前状态开始一直玩下去未来所有奖励的“折算总分”V ( s ) E [ ∑ t 0 ∞ γ t r t 1 ] V(s) \mathbb{E}\left[\sum_{t0}^{\infty} \gamma^t r_{t1} \right]V(s)E[t0∑∞γtrt1]什么是 Bellman 最优方程核心思想现在值多少钱 现在这一步的奖励 未来状态的价值你在状态s ss你选一个动作a aa立刻得到奖励r rr进入新状态s ′ ss′未来还能拿V ( s ′ ) V(s)V(s′)这么多分那你现在的总价值 现在得分 未来能得的分V ( s ) max a ∑ s ′ P ( s ′ ∣ s , a ) [ R ( s , a , s ′ ) γ V ( s ′ ) ] V(s) \max_a \sum_{s} P(s|s,a) \Big[ R(s,a,s) \gamma V(s) \Big]V(s)amaxs′∑P(s′∣s,a)[R(s,a,s′)γV(s′)]逐项翻译数学符号人话max a \max_amaxa选最好的动作P ( s ′ ∣ s , a ) P(s | s,a)P(s′∣s,a)做了这事后可能会去哪R ( s , a , s ′ ) R(s,a,s)R(s,a,s′)立刻得多少分γ V ( s ′ ) \gamma V(s)γV(s′)未来还能得多少分策略π \piπ代理的大脑策略π \piπ是智能体的大脑它是一个函数告诉在给定当前状态时应采取什么动作。因此它定义了智能体在特定时刻的行为。这个策略是我们希望学习的函数我们的目标是找到最优策略π \piπ即在智能体按该策略行动时能够最大化期望回报的策略。我们通过训练来找到该π ∗ \pi^*π∗。有两种方法来训练我们的智能体寻找这个最优策略π ∗ \pi^*π∗直接地通过让智能体学习在给定状态下应采取的动作基于策略的方法。在基于策略的方法中直接学习策略函数。此函数将把每个状态映射到该状态下的最佳对应动作或者映射到该状态下所有可能动作的概率分布。确定性在给定状态下的策略始终返回相同的动作。随机输出动作的概率分布。间接地让智能体学习哪些状态更有价值然后采取能够引向更有价值状态的行动基于价值的方法。在基于价值的方法中我们不是训练策略函数而是训练一个价值函数将状态映射到该状态的期望价值。“按照我们的策略行动”仅意味着我们的策略是“前往价值最高的状态”。由于我们的价值函数在每一步中我们的策略会选择由价值函数定义的最大值状态− 7 -7−7然后是− 6 -6−6再是− 5 -5−5依此类推以实现目标。