强化学习(三):策略评估与优化
本⽂章收录在-⿊鲸智能系统知识库成⽴于2021年,致⼒于建⽴⼀个完整的智能系统知识库体系。我们的⼯作:收集和整理世界范围内的学习资源,系统地建⽴⼀个内容全⾯、结构合理的知识库。
作者博客:
确定状态值
强化学习系统的⼀个⼦任务是
π
尽可能多地了解环境和它的奖励⾏为,以便更好地塑造代理的策略
使⽤⾏为策略使Agent与环境互动,Agent将获得奖励,并能了解环境的⼀些情况,根绝这些信息就可以确定某个状态的价值
以⽹格环境为例
Example taken from Book, Sutton, Barto; Reinforcement Learning
假设⼀个⽹格地图4 x 4离散空间位置绿⾊⾓落是⽬标位置Agent的任务到到达两个⽬标位置之⼀的⽅法
状态:Agent的位置
⾏动: 上 下 左 右奖励:完全负奖励奖励⽆则损:任务:确认状态价值函数由于可⽤的状态s是离散的有
限的(14个位置),状态值函数V(s)可以很容易的列举出来
s t a t ‘r =t −1‘
γ=1
V (s )=?
V (s =1),V (2),V (3)...V (14)
value函数什么意思如何选择⾏为策略?
⾏为策略应该能够引导Agent通过环境达最终位置该政策应该有明确的探索性exploration特征
即使没有⼀个价值函数是提前已知的,这个策略也应该可⽤
最理想的情况是,⾏为策略产⽣的⾏动序列能够使产⽣的价值函数接近于最佳价值函数策略评估为了到上例中提到的⾏为策略,我们需要进⾏策略评估
策略评估是遵循⼀个给定的⾏为策略确定价值函数的任务策略评价是通过测量获得的奖励来评价使⽤特定策略的效果
策略评估的输出是⼀个价值函数的值
策略评估公式
πb (V (s ),Q (s ,a ))V (s )V ∗(s )
πb (V (s ))
使⽤策略估计/计算⼀个价值函数被称为政策评估(或预测问题)参考 已知价值函数为:
是在状态下执⾏⾏动的概率
是执⾏后从到的转换概率
是执⾏后从到的预期回报线性环境
如果⾏为和属性是有限的已知的,则策略评估的⽅程就是⼀个线性⽅程系统,其中#指的是未知的状态集合,我们需要到位置的状态以及他们的价值函数迭代策略评估迭代策略评估是计算#S⽅程的⽅法之⼀在迭代策略评估中,会产⽣⼀连串的递归定义的的值
即当然所有的价值函数都依赖于由策略选出的状态从k到k+1的步骤需要进⾏ “Sweep”对于所有状态s,对于从t到T的完整序列有:总结⼀下策略评估算法:
Taken from Book, Sutton, Barto; Reinforcement Learning, Chapter 4.πV (s )=ππ(s ,a )P (R +∑a ∑s ′s ,s ′a s ,s ′a γV (s ))
π′π(s ,a )s a P ss ′a
a s s ′R ss ′a a s s ′#S S V (s )
k lim V (s )=k →∞k V (s )
πV πb s
V (s )→0πV (s )→1πV (s )→2π...V (s )→k πV (s )→k +1π
...V (s )
πV (s )←ππ(s ,a )P (R +∑a ∑s ′s ,s ′a s ,s ′a
γV (s ))
π′
应⽤到上⾯提到的例⼦可得
蒙特卡洛策略评估 Monte Carlo policy Evaluation
π
在很多情况下,选择随机⾏动(蒙特卡洛)的策略已经⾜够完成任务了
即⼀个纯粹的探索性策略
应⽤蒙特卡洛策略来确定价值函数的⽅法被称为蒙特卡洛(MC)策略评价
MC策略评估,是⼀种⽆模型的策略评估,它会对沿着⼏个事件(⾏为)收集的奖励的总和进⾏平均化
First-visit Monte Carlo Policy Evaluation
⾸访MC策略评估的特点是计算在⼀个事件中⾸次访问状态s后的所有回报的平均值Every-visit Monte Carlo Policy Evaluation:
对事件中所有状态s发⽣的所有回报平均化

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。