边做边学深度强化学习:PyTorch程序设计实践(小川雄太郎)

书: https://pan.baidu.com/s/1XqKbodMZYD_Bu2f_E1ghxw?pwd=y5p9
笔记如下:

  1. “深度强化学习的核心是‘通过试错学习’,智能体(Agent)与环境交互最大化累积奖励。”
  2. “PyTorch的动态计算图(Dynamic Computation Graph)更适合DRL,支持实时调整网络结构。”
  3. “Q-Learning的贝尔曼方程:Q(s,a) = r + γ * max Q(s',a')γ为折扣因子。”
  4. “DQN(Deep Q-Network)的两大创新:经验回放(Replay Buffer)和目标网络(Target Network)。”
  5. nn.MSELoss()计算TD误差(Temporal Difference),optimizer.zero_grad()清空梯度避免累积。”
  6. “策略梯度(Policy Gradient)直接优化策略函数,log_prob * advantage加权更新。”
  7. “Actor-Critic框架:Actor(策略网络)生成动作,Critic(价值网络)评估优势。”
  8. “PPO(近端策略优化)通过clip(ratio, 1-ε, 1+ε)限制策略更新幅度,提升稳定性。”
  9. “A3C(异步优势Actor-Critic)的多线程设计:全局网络同步,Worker线程异步探索。”
  10. “DDPG(深度确定性策略梯度)解决连续动作空间问题,Ornstein-Uhlenbeck噪声增强探索。”
  11. “HER( hindsight experience replay)适用于稀疏奖励场景,通过‘事后诸葛亮’重构目标。”
  12. env = gym.make('CartPole-v1')创建Gym环境,env.step(action)返回(obs, reward, done, info)。”
  13. “自定义环境需继承gym.Env,实现reset()step()render()方法。”
  14. torch.nn.utils.clip_grad_norm_()防止梯度爆炸,L2正则化(权重衰减)避免过拟合。”
  15. “状态归一化:(state - mean) / std加速训练,移动平均更新统计量。”
  16. “分布式DRL:Ray框架实现参数服务器(Parameter Server),同步多个Agent经验。”
  17. “好奇心驱动(Intrinsic Curiosity Module)通过预测误差生成内部奖励,探索未知状态。”
  18. tensorboard --logdir=runs可视化训练曲线,监控episode_rewardloss。”
  19. “迁移学习:预训练网络的特征提取层(如CNN)适配新任务,仅微调顶层。”
  20. “DRL实践铁律:‘从小环境(如CartPole)开始验证算法,再挑战复杂任务(如Atari)’。”

发表评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注