跳转至

强化学习基础

马尔可夫状态

\[ 信息状态(也叫马尔可夫状态)包含历史上所有有用的信息。 \\状态S_t具有马尔可夫性,当且仅当\mathbb{P}[S_{t+1}|S_t]=\mathbb{P}[S_{t+1}|S_1,\cdots,S_t] \\给定当前时刻的状态,将来与历史无关 \]

完全可观测的环境

完全可观测: 智能体可以直接观察到全部环境状态 $$ S_t=S_ta=S_te $$ 信息状态=智能体状态=环境状态

正式地说,这是马尔科夫决策过程(MDP)

部分可观测的环境

部分可观测: 智能体可以观测到环境的部分

比如:打麻将 斗地主

智能体状态不等于环境状态

正式地说,这是部分可观测马尔可夫决策过程(POMDP)

策略

策略是学习智能体在特定时间的行为方式

  • 是从状态到行动的映射
  • 确定性策略:\(a=\pi(s)\)
  • 随机策略: \(\pi(a|s)=P(A_t=a|S_t=s)\)

价值函数

价值函数是对为了累积奖励的预测

  • 用于评估在给定策略下状态的好坏
  • 可用于选择动作
\[ V_\pi(s)=\mathbb{E}_\pi[R_{t+1}+\gamma R_{r+2}+\gamma^2 R_{t+3}+\cdots|S_t=s] \]

模型

  • 模型用于模拟环境的行为,建模环境的动态特性
  • 解决下述两个问题:

    • 状态转移概率:用来预测环境的下一个状态 $$ P_{ss'}^a=\mathbb{P}[S_{t+1}=s'|S_t=s,A_t=a] $$
    • 奖励: 预测环境给出的下一个即使奖励 $$ R_{s}^a=\mathbb{E}[R_{t+1}|S_t=s,A_t=a] $$
  • 环境真实的运行机制通常不称为模型,而称为环境动力学
  • 模型并不能立即给我们一个好的策略

智能体分类

基于策略的更新与学习方向

基于策略的更新与学习方向,强化学习方法可以分为:

  • 基于价值函数
  • 基于直接策略探索
  • 基于执行者-评论者(Actor-Critic)

根据强化学习算法是否依赖模型

根据强化学习算法是否依赖模型,强化学习方法可以分为:

  • 基于模型的强化学习算法
  • 无模型的强化学习算法

根据环境返回的回报函数是否已知

根据环境返回的回报函数是否已知,强化学习方法可以分为:

  • 正向强化学习算法
  • 逆向强化学习算法:从专家的示例中学习回报函数(智能驾驶)

强化学习问题

学习(Learning)与规划(Planning)

序列决策中的两个基础问题:

  • 强化学习
    • 环境初始未知
    • 智能体不断与环境交互
    • 智能体提升它的策略
  • 规划
    • 环境模型已知
    • 智能体根据Model进行计算(不进行额外的交互)
    • 智能体提升它的策略

探索(Exploration)和利用(Exploitation)

  • 强化学习类似于一个试错的学习
  • 智能体从其于环境的交互中发现一个好的策略
  • 在试错的过程中不会损失太多奖励
  • 探索会发现有关环境的更多信息,有选择地放弃一些奖励
  • 利用已知信息来最大化回报,强调开发利用已有信息
  • 探索和利用是决策时需要平衡地两个方面

预测和控制(Prediction)与控制(Control)

  • 预测:估计未来(评估)
    • 策略已经给定
  • 控制:最大化未来(优化)
    • 找到最优策略