强化学习(3)

在策略学习根据策略\(\pi\) 产生的样本来学习关于\(\pi\)的相关知识 离策略学习根据另一个策略\(\mu\)产生的样本来学习关于\(\pi\)的相关知识(智能体观察人;重复利用旧策略;探索性策略学习最优策略;单一策略去学习多个策略)

\(\epsilon-贪心探索\):以\(1−\epsilon\)概率选择贪心动作 以\(\epsilon\)概率随机选择一个动作

\(\epsilon-贪心策略提升\)给定任意\(\epsilon\)-贪心策略\(\pi\), 根据 \(q_{\pi}\) 构造出新的 \(\epsilon\)-贪心策略 \(\pi′\) 具有 更好的性能, 即 \(v_{\pi′}(s) ≥v_{\pi}(s)\)

无限探索, 无穷时刻收敛为贪心策略(GLIE)的含义是:智能体能够无限次数地探索所有的状态-动作对;策略在无穷时刻收敛到贪心策略。

GLIE蒙特卡洛控制:能够收敛到最优动作 -价值函数, \(Q(s,a) \rightarrow q∗(s,a)\)

  • 使用策略\(\pi\)采集第\(k\)次事件: \({S_1,A_1,R_2,...,S_T}∼ \pi\)
  • 对事件中的每个状态 \(S_t\) 和动作 \(A_t\):\(N(S_t,A_t)\leftarrow N(S_t,A_t)+1;Q(S_t,A_t)\leftarrow Q(S_t,A_t)+\frac{1}{N(S_t,A_t)}(G_t-Q(S_t,A_t))\)
  • 基于新得到的动作-价值函数对策略进行提升\(\epsilon \leftarrow \frac{1}{k};\pi \leftarrow\epsilon-greedy(Q)\)

Sarsa(S,A,R,S',A')

基于样本的TD更新 \(Q(S,A) \leftarrow Q(S,A) + \alpha(R+ \gamma Q(S^′,A^′)−Q(S,A)\)

  1. 任意初始化 \(Q(s,a)\), 令 \(Q(S_{terminal},\cdot) = 0\)
  2. repeat {在每次事件中:}
  3. 初始化 S
  4. 根据从 Q 提取的策略 (例如 \(\epsilon\)-贪心策略) 对 S 选择动作 A
  5. repeat {对事件中的每一时刻}
  6. 执行动作 A, 观察 \(R,S′\)
  7. 根据从 Q 提取的策略 (例如 \(\epsilon\)-贪心策略) 对 S′ 选择动作 A′
  8. \(Q(S,A) \leftarrow Q(S,A) + \alpha(R+ \gamma Q(S^′,A^′)−Q(S,A)\)
  9. \(S\leftarrow S^′, A\leftarrow A^′\)
  10. until S 是终止状态
  11. until

Sarsa vs MC * MC可能无法达到终止状态(例如学习到呆在原地不动) * Sarsa每一步都在学习,转向其他策略

一步 Sarsa vs Sarsa(\(\lambda\)) * 一步 Sarsa 只对最终导致高奖励的最后一步动作强化它的价值 * 资格迹方法能够对事件中的多个动作强化它们的价值,步数增加强化幅度减小;衰减率\(\gamma\lambda\)


Q-学习

  • 考虑基于动作-价值 Q(s,a) 的离策略学习
  • 不再使用重要性采样
  • 智能体下一时刻执行的动作是由行为策略产生\(A_{t+1} ∼ \mu(\cdot|S_t)\)
  • 但是学习算法考虑的是由另一个目标策略产生的后继动作 \(A^′ ∼ \pi(\cdot|S_t)\)
  • 更新 \(Q(S_t,A_t)\) 向另一个后继动作的价值逼近 \(Q(St,At) \leftarrow Q(S_t,A_t)+\alpha(R_{t+1} + \gamma Q(S_{t+1},A^′)−Q(S_t,A_t))\)
  1. 任意初始化 Q(s,a), 令 \(Q(Sterminal,\cdot) = 0\)
  2. repeat {在每次事件中:}
  3. 初始化 S
  4. repeat {对事件中的每一时刻}
  5. 根据从 Q 提取的策略 (例如 \(\epsilon\)-贪心策略) 对 S 选择动作 A
  6. 执行动作 A, 观察 R,S′
  7. \(Q(St,At) \leftarrow Q(S_t,A_t)+\alpha(R_{t+1} + \gamma Q(S_{t+1},A^′)−Q(S_t,A_t))\)
  8. \(S\leftarrow S^′\)
  9. until S 是终止状态
  10. until

对于悬崖问题: * Q-学习:最优路径;Sarsa安全路径(考虑到了随机探索) * 即使 Sarsa 学到的安全路径比 Q-学习的最优路径行走步数要长, 但是每次获得的奖励和却比 Q-学习的高


利用: 根据当前的信息做出最佳的决策; 探索: 采样更多的信息 想要做出长期的最佳决

对于Q学习来说,\(\epsilon=0\)学习结果容易陷入局部最优;\(\epsilon\)过大探索整个空间,降低回报。探索率随时间衰减

\(\epsilon\)贪心根据动作-价值决定动作被选中的概率