Dueling Q-Network与DQN相比,优点在于无论动作a如何,都可以逐步学习与V(s)相关的网络连接参数,因此学习所需的试验轮数比DQN更少。随着动作选择的增加,优势更加明显。

pytorch实现2015版本的DQN。该版本采用目标Q网络来训练主Q网络,较2013版更为稳定,被称为DDQN(Double DQN,双重DQN)。

深度强化学习是一种使用深度学习来进行强化学习的方法。

用强化学习来学习倒立摆的控制方法,这是一项比迷宫更复杂的任务。

实现Q学习算法(一种价值迭代算法)走迷宫。与Sarsa不同的之处在于其动作价值函数的更新公式不同。

作为强化学习的对照,本节中实现一个智能体,该智能体在迷宫中以随机搜索的方式朝目标前进。

强化学习的主要构成要素包括:智能体、环境、行动、奖励。
0%