1、导论

1.1、强化学习

1、强化学习:学习“做什么”(即如何把当前的情景映射成动作)才能使得数值化的收益信号最大化。

2、强化学习最重要的两个特征:

  • 试错
  • 延迟收益

1.3、强化学习要素

强化学习系统的四个核心要素:

  • 策略:智能体在特定时间内的行为方式
  • 收益信号:短期的;
  • 价值函数:长期的;
  • (可选的)对环境建立的模型

第I部分 表格型求解方法

简单问题:其状态和动作空间小到可以用数组或表格的形式表示价值函数

2、多臂赌博机

评估性反馈:表明当前采取的动作的好坏程度
指导性反馈:表示应该选择的正确动作是什么

贪心的动作:某一时刻具有最高估计价值的动作

开发:选择贪心的动作
试探:选择非贪心的动作

在同一次动作选择中,开发和试探是不可能同时进行的

2.2、动作-价值方法

动作-价值方法:用【选择动作a在观测到的实际收益的平均值】来估计动作a的价值

ε-贪心方法:动作选择策略大部分时间都选择贪心,但会以一个很小的概率ε从所有动作中随机选择一个作为试探。

收益方差较大时,由于收益的噪声较多,ε-贪心方法会比贪心方法好很多。

2.4、增量式实现

高效地计算收益均值,使用增量式实现,只需要存储旧估计值和步长:

新估计值 = 旧估计值 + 步长 x [目标 - 旧估计值]

2.5、跟踪一个非平稳问题

非平稳问题:收益的概率分布是随着时间变化的

固定步长(指数近因加权平均):给近期的收益赋予比过去很久的收益更高的权值

2.6、乐观初始值

乐观初始价值:设定过高的初始价值,以鼓励试探的技术。不太适合非稳定问题。

2.7、基于置信度上界的动作选择

不适合非平稳问题

2.8、梯度赌博机算法

偏好函数:偏好函数越大,动作就越频繁地被选择

3、有限马尔可夫决策过程

3.1、“智能体-环境”交互接口

马儿可夫决策过程(MDP):通过交互式学习来实现目标的理论框架

智能体(Agent):进行学习及实施决策的机器

环境:智能体之外所有与其相互作用的事物。智能体不能改变的事物

马尔可夫性:状态包括智能体和环境交互的所有信息,这些信息对未来产生一定影响

3.2、目标和收益

强化学习的目标:最大化智能体接收到的标量信号(称之为收益)累积和的概率期望值

强化学习的一个显著特征:使用收益信号来形式化目标

收益信号只能用来传达什么是想要实现的目标,而非如何实现这个目标

3.3、回报和分幕

幕(episodes):智能体与环境的交互能被自然地分成一系列的子序列

终结状态:每幕以一种特殊状态结束,称之为终结状态

分幕式任务:具有分幕重复特性的任务
持续性任务:智能体-环境交互无法自然地分为单独的幕,而是持续不断地发生

折扣率:决定了未来收益的现值。折扣率越接近1,折后回报将更多地考虑未来的收益,即智能体越有“远见”;折扣率越接近0,即智能体越没“远见”

3.5、策略和价值函数

策略:严格地说,策略是从状态到每个动作的选择概率之间的映射

策略π的状态价值函数:$v_π$
策略π的动作价值函数:$q_π$

蒙特卡洛方法:从真实回报的多个随机样本中求平均值

参数化:环境中的状态很多时,可以将价值函数参数化(参数数量远少于状态的数量),然后通过调整价值函数的参数来更好地计算回报值

贝尔曼方程:表达了状态价值和后继状态价值之间的关系

3.6、最优策略和最优价值函数

最优策略共享相同的最优状态价值函数和最优动作价值函数

贝尔曼最优方程:最优策略下各个状态的价值一定等于这个状态下最优动作的期望回报

本章小结

强化学习:在交互中学习如何行动以实现某个目标的机器学习方法

回报:智能体要最大化的全部未来收益的函数(最大化概率期望值)