
书: https://pan.baidu.com/s/1XqKbodMZYD_Bu2f_E1ghxw?pwd=y5p9
笔记如下:
- “深度强化学习的核心是‘通过试错学习’,智能体(Agent)与环境交互最大化累积奖励。”
- “PyTorch的动态计算图(Dynamic Computation Graph)更适合DRL,支持实时调整网络结构。”
- “Q-Learning的贝尔曼方程:
Q(s,a) = r + γ * max Q(s',a')
,γ
为折扣因子。” - “DQN(Deep Q-Network)的两大创新:经验回放(Replay Buffer)和目标网络(Target Network)。”
nn.MSELoss()
计算TD误差(Temporal Difference),optimizer.zero_grad()
清空梯度避免累积。”- “策略梯度(Policy Gradient)直接优化策略函数,
log_prob * advantage
加权更新。” - “Actor-Critic框架:Actor(策略网络)生成动作,Critic(价值网络)评估优势。”
- “PPO(近端策略优化)通过
clip(ratio, 1-ε, 1+ε)
限制策略更新幅度,提升稳定性。” - “A3C(异步优势Actor-Critic)的多线程设计:全局网络同步,Worker线程异步探索。”
- “DDPG(深度确定性策略梯度)解决连续动作空间问题,
Ornstein-Uhlenbeck
噪声增强探索。” - “HER( hindsight experience replay)适用于稀疏奖励场景,通过‘事后诸葛亮’重构目标。”
- “
env = gym.make('CartPole-v1')
创建Gym环境,env.step(action)
返回(obs, reward, done, info)
。” - “自定义环境需继承
gym.Env
,实现reset()
、step()
和render()
方法。” - “
torch.nn.utils.clip_grad_norm_()
防止梯度爆炸,L2正则化(权重衰减)避免过拟合。” - “状态归一化:
(state - mean) / std
加速训练,移动平均更新统计量。” - “分布式DRL:
Ray
框架实现参数服务器(Parameter Server),同步多个Agent经验。” - “好奇心驱动(Intrinsic Curiosity Module)通过预测误差生成内部奖励,探索未知状态。”
- “
tensorboard --logdir=runs
可视化训练曲线,监控episode_reward
和loss
。” - “迁移学习:预训练网络的特征提取层(如CNN)适配新任务,仅微调顶层。”
- “DRL实践铁律:‘从小环境(如CartPole)开始验证算法,再挑战复杂任务(如Atari)’。”