Actor-Critic算法
更新于
Actor-Critic算法由两部分组成:Actor和Critic。其中Actor用的是Policy Gradient,Critic用的是Q-learning,所以它实际上是策略迭代法和价值迭代法的结合。
pytorch实现Dueling DQN
更新于
Dueling DQN是DQN的改进,通过调整网络结构使得网络可以学到更为准确的状态价值的估值,从而更有效地找到好的策略(学习所需的试验轮数更少)。随着动作选择的增加,它的优势更加明显。