边做边学深度强化学习：PyTorch程序设计实践(小川雄太郎) – 技术分享

书: https://pan.baidu.com/s/1XqKbodMZYD_Bu2f_E1ghxw?pwd=y5p9
笔记如下：

“深度强化学习的核心是‘通过试错学习’，智能体（Agent）与环境交互最大化累积奖励。”
“PyTorch的动态计算图（Dynamic Computation Graph）更适合DRL，支持实时调整网络结构。”
“Q-Learning的贝尔曼方程：Q(s,a) = r + γ * max Q(s',a')，γ为折扣因子。”
“DQN（Deep Q-Network）的两大创新：经验回放（Replay Buffer）和目标网络（Target Network）。”
nn.MSELoss()计算TD误差（Temporal Difference），optimizer.zero_grad()清空梯度避免累积。”
“策略梯度（Policy Gradient）直接优化策略函数，log_prob * advantage加权更新。”
“Actor-Critic框架：Actor（策略网络）生成动作，Critic（价值网络）评估优势。”
“PPO（近端策略优化）通过clip(ratio, 1-ε, 1+ε)限制策略更新幅度，提升稳定性。”
“A3C（异步优势Actor-Critic）的多线程设计：全局网络同步，Worker线程异步探索。”
“DDPG（深度确定性策略梯度）解决连续动作空间问题，Ornstein-Uhlenbeck噪声增强探索。”
“HER（ hindsight experience replay）适用于稀疏奖励场景，通过‘事后诸葛亮’重构目标。”
“env = gym.make('CartPole-v1')创建Gym环境，env.step(action)返回(obs, reward, done, info)。”
“自定义环境需继承gym.Env，实现reset()、step()和render()方法。”
“torch.nn.utils.clip_grad_norm_()防止梯度爆炸，L2正则化（权重衰减）避免过拟合。”
“状态归一化：(state - mean) / std加速训练，移动平均更新统计量。”
“分布式DRL：Ray框架实现参数服务器（Parameter Server），同步多个Agent经验。”
“好奇心驱动（Intrinsic Curiosity Module）通过预测误差生成内部奖励，探索未知状态。”
“tensorboard --logdir=runs可视化训练曲线，监控episode_reward和loss。”
“迁移学习：预训练网络的特征提取层（如CNN）适配新任务，仅微调顶层。”
“DRL实践铁律：‘从小环境（如CartPole）开始验证算法，再挑战复杂任务（如Atari）’。”

Post Views: 136

发表评论 取消回复

发表评论取消回复