
书: https://pan.baidu.com/s/15VfTw9eJ2MoiHktwswP0gw?pwd=tq5x
笔记如下:
一、强化学习基础
- “强化学习(RL)的核心范式:智能体通过环境交互→奖励反馈→策略更新的循环学习最优行为。”
- “马尔可夫决策过程(MDP)五元组:
<S, A, P, R, γ>
,分别代表状态、动作、转移概率、奖励和折扣因子。”
二、值函数与贝尔曼方程
- “状态值函数
V(s)
衡量从状态s
出发的长期回报,贝尔曼方程将其分解为即时奖励与后继状态值的加权和。” - “最优值函数
V*(s)
满足贝尔曼最优方程:V*(s) = max_a [R(s,a) + γΣ P(s'|s,a)V*(s')]
。”
三、经典算法
- “Q-learning的更新规则:
Q(s,a) ← Q(s,a) + α[r + γ max_a' Q(s',a') - Q(s,a)]
,属于离策略(Off-policy)学习。” - “策略梯度定理:直接优化策略参数θ,梯度
∇J(θ) ∝ E[∇log π(a|s;θ) Q^π(s,a)]
。”
四、深度强化学习
- “DQN(Deep Q-Network)的两大创新:经验回放(Experience Replay)打破样本相关性,目标网络(Target Network)稳定训练。”
- “Actor-Critic框架结合值函数(Critic)与策略(Actor),降低策略梯度的方差。”
五、策略优化
- “PPO(近端策略优化)通过 clipped重要性采样控制策略更新幅度,平衡效率与稳定性。”
- “TRPO(信赖域策略优化)用KL散度约束策略更新,保证单调改进,但计算复杂。”
六、探索与利用
- “ε-greedy策略:以概率ε随机探索,否则选择当前最优动作,简单但低效。”
- “基于不确定性的探索(如UCB)偏好访问不确定性高的状态-动作对。”
七、多智能体RL
- “纳什均衡是多智能体RL的收敛目标,但求解复杂度随智能体数量指数增长。”
八、实践技巧
- “奖励设计原则:稀疏奖励需结合课程学习(Curriculum Learning)或人工塑形(Reward Shaping)。”
- “超参数敏感:学习率α和折扣因子γ需网格搜索,
γ≈0.99
适用于长期任务。”
九、前沿方向
- “元强化学习(Meta-RL)让智能体学会学习,在新任务中快速适应。”
- “模仿学习(Imitation Learning)从专家示范中初始化策略,减少随机探索成本。”
十、理论局限
- “样本效率低下:RL需大量环境交互,模拟器(如MuJoCo)是现实应用的桥梁。”
- “灾难性遗忘:连续任务中,新知识可能覆盖旧策略,需引入记忆回放或正则化。”
- “RL的终极挑战:如何实现可解释性与安全约束,避免‘奖励黑客’(Reward Hacking)。”