【强化学习】DDPG理论学习

强化学习目录：

- DQN
- Actor-critic
- DDPG

DQN

结合了强化学习的Q-learning和tensorflow的神经网络，不用建立Q表，而是通过当前环境的特点就可以得出整个环境每个动作的Q值，从而解决了问题复杂时Q表庞大的问题。

DQN有两个神经网络，一个网络Net_Pre用于计算q_predict（Q估计，对当前环境的认知），一个网络Net_Next用来计算q_next（Q现实，下个环境的实际得分）。

DQN不再更新Q表，而是通过Q估计和Q现实的误差更新Net_Pre和Net_Next的参数。

Actor-critic

actor（演员）的作用与policy gradient类似，通过环境的观测量利用神经网络得到每个动作的概率，并通过每个观测状态的得分更新当前网络。
critic（评论家）的作用与DQN类似，通过输入环境的观测量预测每个环境的价值，并通过实际价值与预测价值更新当前的神经网络。

DDPG

深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)是DQN和Actor-critic的结合，此时，Actor不再输出每个动作的概率，而是输出一个具体的动作，更有助于神经网络在连续动作空间中的学习。
DDPG构建了四个神经网络，分别为actor的现实网络、actor的估计网络、critic的现实网络、critic的估计网络。

其中，actor和critic的估计网络需要训练，与DQN的Q估计类似；actor和critic的现实网络无需训练，与DQN的Q现实类似。

欢迎大家指正和讨论，最后附上来自大佬的参考资料：

https://blog.csdn.net/weixin_44791964/article/details/96422796
https://blog.csdn.net/weixin_44791964/article/details/99698318
https://blog.csdn.net/weixin_44791964/article/details/100007025

【强化学习】DDPG理论学习

Python相关栏目本月热门文章