强化学习(三):策略评估与优化--688IT编程网

强化学习（三）：策略评估与优化

本⽂章收录在-⿊鲸智能系统知识库成⽴于2021年，致⼒于建⽴⼀个完整的智能系统知识库体系。我们的⼯作：收集和整理世界范围内的学习资源，系统地建⽴⼀个内容全⾯、结构合理的知识库。

作者博客：

确定状态值

强化学习系统的⼀个⼦任务是

尽可能多地了解环境和它的奖励⾏为，以便更好地塑造代理的策略

使⽤⾏为策略使Agent与环境互动，Agent将获得奖励，并能了解环境的⼀些情况，根绝这些信息就可以确定某个状态的价值

以⽹格环境为例

Example taken from Book, Sutton, Barto; Reinforcement Learning

假设⼀个⽹格地图4 x 4离散空间位置绿⾊⾓落是⽬标位置Agent的任务到到达两个⽬标位置之⼀的⽅法

状态：Agent的位置

⾏动: 上下左右奖励：完全负奖励奖励⽆则损：任务：确认状态价值函数由于可⽤的状态s是离散的有

限的（14个位置)，状态值函数V(s)可以很容易的列举出来

s t a t ‘r =t −1‘

γ=1

V (s )=?

V (s =1)，V (2)，V (3)...V (14)

value函数什么意思如何选择⾏为策略？

⾏为策略应该能够引导Agent通过环境达最终位置该政策应该有明确的探索性exploration特征

即使没有⼀个价值函数是提前已知的，这个策略也应该可⽤

最理想的情况是，⾏为策略产⽣的⾏动序列能够使产⽣的价值函数接近于最佳价值函数策略评估为了到上例中提到的⾏为策略，我们需要进⾏策略评估

策略评估是遵循⼀个给定的⾏为策略确定价值函数的任务策略评价是通过测量获得的奖励来评价使⽤特定策略的效果

策略评估的输出是⼀个价值函数的值

策略评估公式

πb （V (s ),Q (s ,a ))V (s )V ∗(s )

πb （V (s )）

使⽤策略估计/计算⼀个价值函数被称为政策评估（或预测问题）参考已知价值函数为：

是在状态下执⾏⾏动的概率

是执⾏后从到的转换概率

是执⾏后从到的预期回报线性环境

如果⾏为和属性是有限的已知的，则策略评估的⽅程就是⼀个线性⽅程系统，其中#指的是未知的状态集合，我们需要到位置的状态以及他们的价值函数迭代策略评估迭代策略评估是计算#S⽅程的⽅法之⼀在迭代策略评估中，会产⽣⼀连串的递归定义的的值

即当然所有的价值函数都依赖于由策略选出的状态从k到k+1的步骤需要进⾏ “Sweep”对于所有状态s，对于从t到T的完整序列有：总结⼀下策略评估算法：

Taken from Book, Sutton, Barto; Reinforcement Learning, Chapter 4.πV (s )=ππ(s ,a )P (R +∑a ∑s ′s ,s ′a s ,s ′a γV (s ))

π′π(s ,a )s a P ss ′a

a s s ′R ss ′a a s s ′#S S V (s )

k lim V (s )=k →∞k V (s )

πV πb s

V (s )→0πV (s )→1πV (s )→2π...V (s )→k πV (s )→k +1π

...V (s )

πV (s )←ππ(s ,a )P (R +∑a ∑s ′s ,s ′a s ,s ′a

γV (s ))

π′

应⽤到上⾯提到的例⼦可得

蒙特卡洛策略评估 Monte Carlo policy Evaluation

在很多情况下，选择随机⾏动（蒙特卡洛）的策略已经⾜够完成任务了

即⼀个纯粹的探索性策略

应⽤蒙特卡洛策略来确定价值函数的⽅法被称为蒙特卡洛（MC）策略评价

MC策略评估，是⼀种⽆模型的策略评估，它会对沿着⼏个事件（⾏为）收集的奖励的总和进⾏平均化

First-visit Monte Carlo Policy Evaluation

⾸访MC策略评估的特点是计算在⼀个事件中⾸次访问状态s后的所有回报的平均值Every-visit Monte Carlo Policy Evaluation:

对事件中所有状态s发⽣的所有回报平均化

688IT编程网

强化学习(三):策略评估与优化

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林特征选择原理

自动驾驶系统中的随机森林算法解析

随机森林算法及其在生物信息学中的应用

监督学习中的随机森林算法解析(六)

随机森林算法在数据分析中的应用

机器学习——随机森林,RandomForestClassifier参数含义详解

随机森林的算法

随机森林算法作用

监督学习中的随机森林算法解析(十)

随机森林算法案例

随机森林案例

二分类问题常用的模型

绘制ssd框架训练流程

一种基于信息熵和DTW的多维时间序列相似性度量算法

SVM训练过程范文

如何使用支持向量机进行股票预测与交易分析

二分类交叉熵损失函数binary

tinybert_训练中文文本分类模型_概述说明

基于门控可形变卷积和分层Transformer的图像修复模型及其应用

人工智能开发技术的测试和评估方法

最新文章

基于随机森林的数据分类算法改进

人工智能中的智能识别与分类技术

基于人工智能技术的随机森林算法在医疗数据挖掘中的应用

随机森林回归模型的建模步骤

r语言随机森林预测模型校准曲线

《2024年随机森林算法优化研究》范文

标签列表