物流官方网站重庆seowhy整站优化

张小明 2026/1/12 13:58:52
物流官方网站,重庆seowhy整站优化,织梦手机网站制作教程,苏州行业网站建设报价强化学习过程什么是 奖励函数 R(s,a,a′)R(s,a,a)R(s,a,a′)#xff1f;什么是 状态价值函数#xff1f;什么是 Bellman 最优方程#xff1f;策略 π\piπ#xff1a;代理的大脑强化学习 就是#xff1a;做一件事 → 立刻有好坏感受 → 把所有 将来的好坏 折算成 现在的分…强化学习过程什么是 奖励函数R ( s , a , a ′ ) R(s,a,a)R(s,a,a′)什么是 状态价值函数什么是 Bellman 最优方程策略π \piπ代理的大脑强化学习就是做一件事 →立刻有好坏感受→ 把所有将来的好坏折算成现在的分数强化学习过程参考阅读An Introduction to Deep Reinforcement Learning强化学习过程状态、动作、奖励和下一个状态的循环想象一个智能体正在学习玩平台游戏我们的 Agent 从环境中接收状态S 0 S_0S0​—— 我们收到游戏的第一帧环境。基于状态S 0 S_0S0​Agent 采取动作A 0 A_0A0​—— 我们的 Agent 将向右移动。环境进入新的状态S 1 S_1S1​—— 新的帧。环境向智能体给予一些奖励R 1 R_1R1​—— 我们没有死亡正奖励 1 11这个强化学习循环输出状态、动作、奖励和下一个状态的序列。智能体的目标是最大化其累计奖励称为期望回报。什么是 奖励函数R ( s , a , a ′ ) R(s,a,a)R(s,a,a′)奖励函数 环境对你“这一步行为”的打分规则。奖励不是你自己决定的而是环境给你的反馈。用生活例子理解你在玩一个闯关游戏状态s ss你现在在第 3 步动作a aa你选择“向右走”下一状态s ′ ss′你走到了第 4 步这时游戏系统给你一个提示“10 分”过关或 “-1 分”撞墙或 “0 分”啥也没发生这个打分规则就是奖励函数。为什么写成R ( s , a , s ′ ) R(s,a,s)R(s,a,s′)三个变量因为奖励可能取决于这三件事。什么是 状态价值函数即时奖励r t 1 r_{t1}rt1​你在第t tt步做完动作后立刻得到的奖励比如时间步你做的事得到的奖励t 0 t0t0向右走− 1 -1−1t 1 t1t1向右走− 1 -1−1t 2 t2t2到终点 10 1010折扣因子γ \gammaγ为什么未来的奖励不如现在的值钱想象两个选择现在给你100 100100块一年后给你100 100100块你更想要哪个现在的更值钱这就是折扣因子γ \gammaγ的直觉。γ t r t 1 \gamma^t r_{t1}γtrt1​把“将来得到的奖励”按时间远近打折举个具体数值设γ 0.9 \gamma 0.9γ0.9时间奖励折扣后价值现在t 0 t0t0− 1 -1−1− 1 -1−1下一步t 1 t1t1− 1 -1−1− 0.9 -0.9−0.9再下一步t 2 t2t2 10 10100. 9 2 × 10 8.1 0.9^2 × 10 8.10.92×108.1离现在越远权重越小。状态价值函数从当前状态开始一直玩下去未来所有奖励的“折算总分”V ( s ) E [ ∑ t 0 ∞ γ t r t 1 ] V(s) \mathbb{E}\left[\sum_{t0}^{\infty} \gamma^t r_{t1} \right]V(s)E[t0∑∞​γtrt1​]什么是 Bellman 最优方程核心思想现在值多少钱 现在这一步的奖励 未来状态的价值你在状态s ss你选一个动作a aa立刻得到奖励r rr进入新状态s ′ ss′未来还能拿V ( s ′ ) V(s)V(s′)这么多分那你现在的总价值 现在得分 未来能得的分V ( s ) max ⁡ a ∑ s ′ P ( s ′ ∣ s , a ) [ R ( s , a , s ′ ) γ V ( s ′ ) ] V(s) \max_a \sum_{s} P(s|s,a) \Big[ R(s,a,s) \gamma V(s) \Big]V(s)amax​s′∑​P(s′∣s,a)[R(s,a,s′)γV(s′)]逐项翻译数学符号人话max ⁡ a \max_amaxa​选最好的动作P ( s ′ ∣ s , a ) P(s | s,a)P(s′∣s,a)做了这事后可能会去哪R ( s , a , s ′ ) R(s,a,s)R(s,a,s′)立刻得多少分γ V ( s ′ ) \gamma V(s)γV(s′)未来还能得多少分策略π \piπ代理的大脑策略π \piπ是智能体的大脑它是一个函数告诉在给定当前状态时应采取什么动作。因此它定义了智能体在特定时刻的行为。这个策略是我们希望学习的函数我们的目标是找到最优策略π \piπ即在智能体按该策略行动时能够最大化期望回报的策略。我们通过训练来找到该π ∗ \pi^*π∗。有两种方法来训练我们的智能体寻找这个最优策略π ∗ \pi^*π∗直接地通过让智能体学习在给定状态下应采取的动作基于策略的方法。在基于策略的方法中直接学习策略函数。此函数将把每个状态映射到该状态下的最佳对应动作或者映射到该状态下所有可能动作的概率分布。确定性在给定状态下的策略始终返回相同的动作。随机输出动作的概率分布。间接地让智能体学习哪些状态更有价值然后采取能够引向更有价值状态的行动基于价值的方法。在基于价值的方法中我们不是训练策略函数而是训练一个价值函数将状态映射到该状态的期望价值。“按照我们的策略行动”仅意味着我们的策略是“前往价值最高的状态”。由于我们的价值函数在每一步中我们的策略会选择由价值函数定义的最大值状态− 7 -7−7然后是− 6 -6−6再是− 5 -5−5依此类推以实现目标。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

做国外网站的站长搜索类的网站优点

IDM试用期管理工具:3步延长使用解决下载限制 【免费下载链接】IDM-Activation-Script IDM Activation & Trail Reset Script 项目地址: https://gitcode.com/gh_mirrors/id/IDM-Activation-Script 还在为IDM的30天试用期而烦恼吗?IDM Activat…

张小明 2026/1/10 12:07:27 网站建设

门户网站源码制作网页然后把文件上传

本篇属于我正在连载的栏目《AI 提效实验室》,专门分享最实用、最省时间的 AI 办公方法。 目标很简单——让你少做机械活,把更多时间花在真正重要的事情上。 你听说过AI工作流嘛? AI 工作流(AI Workflow)指的是&…

张小明 2026/1/10 12:07:26 网站建设

南城区做网站免费的做网站

超强自定义!Android-PickerView让选择器开发告别重复劳动 【免费下载链接】Android-PickerView This is a picker view for android , support linkage effect, timepicker and optionspicker.(时间选择器、省市区三级联动) 项目地址: http…

张小明 2026/1/10 12:07:27 网站建设

关于网站开发的引言茶叶网站实际案例

目录HttpServletRequest简介常见API测试请求行相关请求头相关HttpServletRequest简介 HttpServletRequest是什么? HttpServletRequest是一个接口,其父接口是ServletRequestHttpServletRequest是Tomcat将请求报文转换封装而来的对象,在Tomcat调用servi…

张小明 2026/1/12 2:51:18 网站建设

茶叶企业建设网站公众号开发者密码是什么

第一章:缓存穿透危机应对全指南,PHPRedis高可用架构设计必备技能在高并发的Web应用中,缓存系统是提升性能的核心组件。然而,当大量请求访问数据库中不存在的数据时,缓存层无法命中,所有查询直接打到数据库&…

张小明 2026/1/12 11:25:11 网站建设

搭建公司网站注册一个网站

为了帮助大家系统复盘,我们整理了一套AI测试开发岗位精选面试题,每题附答题思路框架,方便大家快速整理面试经验,并结合真实项目案例量化指标提升说服力。 Tip:建议你结合真实项目经验,每道题尽量给出具体做…

张小明 2026/1/10 12:07:30 网站建设