一种解决连续问题的真实在线自然梯度行动者-评论家算法
大小:0.85 MB 人气: 2017-12-19 需要积分:0
标签:
策略梯度作为一种能有效解决连续空间决策问题的方法被广泛研究.然而,由于在策略估计过程中存在较大的方差,因此基于策略梯度的方法往往受到样本利用率低、收敛速度幔等限制.针对该问题。提出了真实在线增量式自然梯度行动者一评论家算法(TOINAC).TOINAC算法采用优于传统梯度的自然梯度,在真实在线时间差分(TOTD)算法的基础上。提出了一种新型的向前观点,改进了自然梯度行动者一评论家算法.在评论家部分,利用TOTD算法高效性的特点来估计值函数:在行动者部分。引入一种新的向前观点来估计自然梯度。再利用资格迹将自然梯度估计变为在线估计。提高了自然梯度估计的准确性和算法的效率.将TOINAC算法与核方法以及正态策略分布结合,解决连续空间问题.最后。在平衡杆、Mountain Car、以及Acrobot等连续问题上进行了仿真实验。验证算法的有效性.
非常好我支持^.^
(0) 0%
不好我反对
(0) 0%