强化学习(1)

强化学习考虑的是序贯决策过程(智能体处在特定的环境中产生一系列的动作,而环境能够根据这些动作改变智能体的当前状态。) 根据环境反馈的奖励,调整智能体的行为策略,提升智能体 实现目标的能力。

强化学习是基于奖励假设:所有的目标都可以通过最大化期望累加奖励实现

强化学习 监督/非监督学习
产生的结果能够改变数据的分布 产生的结果 (输出) 不会改变数据的分布
最终的目标可能要很长时间才能观察到 结果是瞬时的
没有明确的标签数据 要么有明确的标签数据 (SL)
根据当前的奖励,实现长远的目标 要么完全没有任何标签数据 (USL)

马尔科夫性(RL主要研究的问题)

智能体未来的状态只与当前时刻的状态\(S_t\)有关, 而与过去的状态\({S_1,...,S_{t−1}}\) 无关,那么称智能体的模型具有马尔可夫性。

对于一个马尔可夫状态 \(s\) 和后继状态 \(s′\),状态转移概率定义为\(P_{ss'} = \mathbb{P}[S_{t+1}=s'|S_t=s]\),状态转移矩阵定义为 \[ P = from\begin{bmatrix} P_{11}&...&P_{1n} \\ ... & \\ P_{n1} &... & P_{nn} \end{bmatrix} \] 其中矩阵的每一行和均为1。

markov
markov

马尔科夫奖励过程=马尔科夫链+奖励(\(<S,P,R,\gamma>\),\(S\)有限状态集\(P\)状态转移概率矩阵\(R\)奖励函数\(\gamma\)折扣因子)

回报\(G_t = R_{t+1}+\gamma R_{t+2}+... = \sum_{k=0}^\infty \gamma^kR_{t+k+1}\),这种定义形式更重视近期的奖励,忽视远期的奖励,且\(\lambda\)越大回报越长远。

状态价值函数 等于从状态s出发的期望回报 \(v(s)=\mathbb{E}[G_t|S_t=s]\),分为瞬间奖励\(R_{t+1}\)以及后续状态的折扣价值\(\lambda v(S_{t+1})\) \[ v(s) = \mathbb{E}[G_t|S_t=s] =\mathbb{E}[R_{t+1}+\lambda v(S_{t+1})|S_t=s]\\ v(s) = R_s + \gamma \sum_{s'\in S}P_{ss'}v(s') \] 矩阵形式的贝尔曼方程 \[ v = R + \lambda Pv; v=(I-\lambda P)^{-1}R \]

马尔可夫决策过程\(<S,A,P,R,\lambda>\)(A有限动作集)

一个强化学习的智能体可能包括如下一个或多个元素 * 确定性/随机性策略:智能体的行为(状态到动作的映射),与历史无关,静态性\(A_t\sim\pi(\cdot|S_t),\forall t>0\) * 价值函数(值函数、性能指标函数):智能体在某一状态和/或某一动作时是好还是坏 * 模型:智能体对真实环境的估计,预测下一时刻的状态\(P_{ss'}^a\)和奖励\(R_s^a\)

策略 : 状态到动作的一种分布\(\pi (a|s)=\mathbb{P}[A_t=a|S_t=s]\),马尔科夫奖励过程\(<S,P^{\pi},R^{\pi},\lambda>,P_{ss'}^{\pi} = \sum_{a\in A}\pi (a|s)P_{ss'}^a,R_s^{\pi}=\sum_{a\in A}\pi(a|s)R_s^a\)

状态-价值函数 从状态s出发, 在策略 \(\pi\) 作用下的期望回报\(v_{\pi}(s)=\mathbb{E}_\pi[G_t|S_t=s]\)

动作-价值函数 从状态s出发, 首先执行动作 a, 然后在策略\(\pi\)作用下的期望回报\(q_\pi(s,a)=\mathbb E_{\pi}[G_t|S_t=s,A_t=a]\)


最优价值函数(智能体在MDP问题下最好的性能,表示该问题可解)

最优状态-价值函数在所有策略中价值最大的\(v_*(s)=max_{\pi}v_{\pi}(s)\)

最优动作-价值函数在所有策略中动作价值函数最大的\(q_*(s,a)=max_{\pi}q_{\pi}(s,a)\)

总是存在一个最优策略,通过最大化\(q_*(s,a)\)来确定 \[ \pi_*(a|s)\left\{\begin{matrix} 1 & if\ a=argmax_{a\in A}q_*(s,a)\\ 0 & otherwise \end{matrix}\right. \]

强化学习目标是找到一组时间序列的动作\(\{A_0,A_1,...\}\),使得智能体从\(S_0\)出发得到的期望累加奖励最大化\(v*(s_0)=\mathbb E[max_{A_0,A_1,...}(R_1+\lambda R_2+\lambda^2R_3...)]\)

最优策略性质:以第一步决策所形成的阶段和状态作为初始条件来 考虑时,余下的决策对余下的问题而言也必构成最优策略