Gae&reward shaping

2021-02-03 06:13

阅读：824

标签：variant data tag 泛化 play orm mat 问题 terminal

1| reward. shaping

如果对vs有大致的认知，把势能potential-based定义为估计的最优价值函数，能加快价值函数收敛

技术图片

2、gae：广义优势估计

absorb state:terminal state

γ-just条件:尚未理解

GAE(Generalized Advantage Estimation)

GAE的作用
- GAE的意思是泛化优势估计，因而他是用来优化Advantage Function优势函数的。
- GAE的存在是用来权衡variance和bias问题的：
  - On-policy直接交互并用每一时刻的回报作为长期回报的估计 $\sum_{t^{'} = t}^{T} γ^{t^{'} - t} r_{t^{'}} \sum_{t'=t}^{T} \gamma^{t'-t}r_{t'}$
  - 而通过基于优势函数的AC方法来进行回报值估计，则会产生方差较小，而Bias较大的问题。
GAE 推导

满足 $γ \gamma$
GAE形式

GAE的形式为多个价值估计的加权平均数。 $T D E r r o r = δ_{t} = r_{t} + γ v (s_{t + 1}) - v (s_{t}) TD Error=\delta_t=r_t+\gamma v(s_{t+1})-v(s_t)$

? 为了快速估计序列中所有时刻的估计值，采用倒序计算，从t+1时刻估计t时刻：

Gae&reward shaping

标签：variant data tag 泛化 play orm mat 问题 terminal

原文地址：https://www.cnblogs.com/lin-kid/p/11199380.html

文章来自：搜素材网的编程语言模块，转载请注明文章出处。
文章标题：Gae&reward shaping
文章链接：http://soscw.com/index.php/essay/50286.html

亲，登录后才可以留言！

Gae&amp;reward shaping