Gae&reward shaping
2021-02-03 06:13
标签:variant data tag 泛化 play orm mat 问题 terminal 1| reward. shaping 如果对vs有大致的认知,把势能potential-based定义为估计的最优价值函数,能加快价值函数收敛 2、gae:广义优势估计 absorb state:terminal state γ-just条件:尚未理解 GAE(Generalized Advantage Estimation) GAE的作用 GAE 推导 满足γγ-just条件。(未完待续) GAE形式 GAE的形式为多个价值估计的加权平均数。 ? 为了快速估计序列中所有时刻的估计值,采用倒序计算,从t+1时刻估计t时刻: Gae&reward shaping 标签:variant data tag 泛化 play orm mat 问题 terminal 原文地址:https://www.cnblogs.com/lin-kid/p/11199380.html
文章标题:Gae&reward shaping
文章链接:http://soscw.com/index.php/essay/50286.html