强化学习

学习优化奖励
策略搜索
OpenAI Gym介绍
神经网络策略
评估动作：信用分配问题
策略梯度
马尔可夫决策过程
时序差分学习
Q学习
实现深度Q学习
深度Q学习的变体
一些流行的RL算法概述