- DQN
- Actor-critic
- DDPG
结合了强化学习的Q-learning和tensorflow的神经网络,不用建立Q表,而是通过当前环境的特点就可以得出整个环境每个动作的Q值,从而解决了问题复杂时Q表庞大的问题。
DQN有两个神经网络,一个网络Net_Pre用于计算q_predict(Q估计,对当前环境的认知),一个网络Net_Next用来计算q_next(Q现实,下个环境的实际得分)。
DQN不再更新Q表,而是通过Q估计和Q现实的误差更新Net_Pre和Net_Next的参数。
actor(演员)的作用与policy gradient类似,通过环境的观测量利用神经网络得到每个动作的概率,并通过每个观测状态的得分更新当前网络。
critic(评论家)的作用与DQN类似,通过输入环境的观测量预测每个环境的价值,并通过实际价值与预测价值更新当前的神经网络。
深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)是DQN和Actor-critic的结合,此时,Actor不再输出每个动作的概率,而是输出一个具体的动作,更有助于神经网络在连续动作空间中的学习。
DDPG构建了四个神经网络,分别为actor的现实网络、actor的估计网络、critic的现实网络、critic的估计网络。
其中,actor和critic的估计网络需要训练,与DQN的Q估计类似;actor和critic的现实网络无需训练,与DQN的Q现实类似。
欢迎大家指正和讨论,最后附上来自大佬的参考资料:
https://blog.csdn.net/weixin_44791964/article/details/96422796
https://blog.csdn.net/weixin_44791964/article/details/99698318
https://blog.csdn.net/weixin_44791964/article/details/100007025



