bandit.py:K-臂老虎机td.py:时序差分算法,包含单步 Sarsa,多步 Sarsa,Q-Learningdyna-q.py:Dyna-Q 算法dqn.py:DQN 算法及其两种进阶:Double DQN 与 Dueling DQNreinforce.py:策略梯度算法actor_critic.py:演员-评论员算法trpo.py:TRPO 算法ppo.py:PPO 算法
bandit.py :K-臂老虎机td.py:时序差分算法,包含单步 Sarsa,多步 Sarsa,Q-Learningdyna-q.py :Dyna-Q 算法dqn.py :DQN 算法及其两种进阶:Double DQN 与 Dueling DQNreinforce.py :策略梯度算法actor_critic.py :演员-评论员算法trpo.py :TRPO 算法ppo.py :PPO 算法