几句话总结一个算法之Q-Learning与Sarsa

2020-12-13 01:35

阅读：621

Q(s,a) 有两种方法计算方法，第一种直接查表或者模型预估，Q(s, a) = checkTable(s, a)，这个在训练初期是非常不准确的；第二种方法是通过一步蒙特卡洛方法获取，假设执行a后状态是s‘，且s‘执行了动作了a‘，Q’(s, a) = 当前状态奖励 + 衰减系数 * Q(s‘,a‘)，近似于一个动态规划问题，当游戏结束，就只有当前状态奖励。但与动态规划不同的是，这个递归关系不会等到游戏结束之后才更新，而是走一步更新一次。

上一篇：python官方库安装包大全

下一篇：DataGridView绑定数据源

文章来自：搜素材网的编程语言模块，转载请注明文章出处。
文章标题：几句话总结一个算法之Q-Learning与Sarsa
文章链接：http://soscw.com/essay/23884.html

评论

亲，登录后才可以留言！

关于我们 | 版权声明 | 常见问题 | 素材投稿 | 联系我们 | 网站地图 |

搜素材网素材除本站原创外均由用户分享，若发现权利被侵害，请联系及时联系我们，我们会在第一时间进行处理。

特别说明：本站所有资源除本站原创外仅供学习与参考，请勿用于商业用途,如有侵犯您的版权请联系客服服务QQ：

点击这里给我发消息

Copyright © 2025 soscw.com 搜素材网素材网版权所有蜀ICP备18015633号-1