莫烦老师,DQN代码学习笔记--688IT编程网

莫烦⽼师，DQN代码学习笔记

function怎么记忆详情请见莫烦⽼师DQN主页：

莫烦⽼师代码（没有我繁琐注释代码直通车）：

参考⽂献：Playing Atari with Deep Reinforcement Learning

看图⽚版代码，见下⼀篇，等我学会贴代码。。。

第⼀次在⽹上写⽂章，不知怎么注明参考出处，如涉及侵权问题请评论告诉我。

本⼈初⼊强化学习，看莫烦⽼师的课受益匪浅，再次由衷的感谢⽼师的⽆私奉献，笔芯❤~

由于本⼈不懂的地⽅太多，所以注释的⽐较多，当然也加⼊了⽼师的注释。供以后学习参考，和其他⼩⽩⼀起进步。

建议参考DQN算法的英⽂流程，我也不知道这种中⽂注释能在哪⾥更⽅便的上传，就在这⾥发好啦，这⾥排版没准乱如果真要参考，就拷到编辑器上吧

废话不多说：

-----------这⾥是run_this.py⽂件嘿嘿嘿-----------------------------------------------------

#更新的步骤

from maze_env import Maze

from RL_brain import DeepQNetwork#引⼊了⾃⼰写的maze_env，RL_brain模块中class maze，class DeepQNetwork

def run_maze():

step = 0#为了记录当前⾛的第⼏步，因为先要存储⼀些记忆，当记忆库中有⼀些东西的时候才去学习

for episode in range(300):

# initial observation

observation = set()#环境给出初始坐标

while True:

# fresh env更新环境

# RL choose action based on observation根据观测值选择⼀个动作

action = RL.choose_action(observation)

# RL take action and get next observation and reward选择动作后得到观测值，奖励，是否终结done的信息

observation_, reward, done = env.step(action)

RL.store_transition(observation, action, reward, observation_)##重要：存储记忆：现在这步观测值，采取的动作。会得到的奖励，采取⾏动后下⼀步观测值

# 控制学习起始时间和频率 (先累积⼀些记忆再开始学习)

if (step > 200) and (step % 5 == 0):#当步数⼤于两百的时候才开始学习，每五步学习⼀次

RL.learn()

# swap observation

observation = observation_#更新观测值

# break while loop when end of this episode

if done:

break

step += 1

# end of game

print('game over')

env.destroy()

if __name__ == "__main__":

# maze game

env = Maze()#引⼊环境

RL = DeepQNetwork(env.n_actions, env.n_features,

learning_rate=0.01,

reward_decay=0.9,

e_greedy=0.9,

replace_target_iter=200, # 每 200 步替换⼀次 target_net 的参数

memory_size=2000,# 记忆上限

output_graph=False # 是否输出 tensorboard ⽂件

)

env.after(100, run_maze)

env.mainloop()

RL.plot_cost() # 观看神经⽹络的误差曲线

-------------这⾥是RL_brain.py，核⼼啊，看了好⼏天哭------------------------------------import numpy as np

import tensorflow as tf

np.random.seed(1)

tf.set_random_seed(1)

# Deep Q Network off-policy

class DeepQNetwork:

def __init__(

self,

n_actions,#输出多少个action的值

n_features,#接受多少个观测值的相关特征

learning_rate=0.01,#NN中learning_rate学习速率

reward_decay=0.9,#Q-learning中reward衰减因⼦

e_greedy=0.9,

replace_target_iter=300,#更新Q现实⽹络参数的步骤数

memory_size=500,#存储记忆的数量

batch_size=32,#每次从记忆库中取的样本数量

e_greedy_increment=None,

output_graph=False,

self.n_actions = n_actions#由maze得4

self.n_features = n_features#由maze得2

= learning_rate

self.gamma = reward_decay

self.epsilon_max = e_greedy#

<_size = memory_size#整个记忆库的容量，即RL.store_transition(observation, action, reward, observation_)有多少条 self.batch_size = batch_size#随机梯度下降SGD会⽤到

self.epsilon_increment = e_greedy_increment#表⽰不断扩⼤epsilon，以便有更⼤的概率拿到好的值

self.epsilon = 0 if e_greedy_increment is not None else self.epsilon_max#如果e_greedy_increment没有值，则self.epsilon设置为self.epsilon_max=0.9

# total learning step

self.learn_step_counter = 0#⽤这个记录学习了多少步，可以让self.epsilon根据这个步数来不断提⾼

# initialize zero memory [s, a, r, s_]

< = np.zeros((_size, n_features * 2 + 2))

#存储记忆的表

#⾏（⾼度）为存储记忆的数量

#列为(observation, action, reward, observation_)的长度

#对于⼀条记忆信息来说observation和observation_都有n_features的长度

#⽽action,reward都各⾃有⼀个单值信息

#则总列数为n_features+2+n_features

#创建 [target_net, evaluate_net]神经⽹络

self._build_net()

# 替换 target net 的参数

t_params = tf.get_collection('target_net_params')#tf.get_collection(key,scope=None)返回具有给定名称的集合中的值列表

#如果未将值添加到该集合，则为空列表。该列表按照收集顺序包含这些值。

e_params = tf.get_collection('eval_net_params')

e_params)]#tf.assign(ref,value,validate_shape=None,use_locking=None,name=None)

#该操作在赋值后输出⼀个张量，该张量保存'ref'的新值。函数完成了将value赋值给ref的作⽤

#zip()函数⽤于将可迭代的对象作为参数，将对象中对应的元素打包成⼀个个元组，然后返回由这些元组组成的列表。

self.sess = tf.Session()

if output_graph:

# $ tensorboard --logdir=logs

tf.summary.FileWriter("logs/", aph)

(tf.global_variables_initializer())

def _build_net(self):#搭建⽹络,q_next, q_eval 包含所有 action 的值

# ------------------ build evaluate_net ------------------预测值⽹络具备最新参数，最后输出q_eval

self.s = tf.placeholder(tf.float32, [None, self.n_features], name='s') # input输⼊当前状态，作为NN的输⼊

self.q_target = tf.placeholder(tf.float32, [None, self.n_actions], name='Q_target') # for calculating loss输⼊Q现实为了后⾯误差计算反向传递 #NN输出q_predict

with tf.variable_scope('eval_net'):

#⾸先对图层进⾏配置，w,b初始化，第⼀层⽹络的神经元数n_l1 #\表⽰没有[],()的换⾏

c_names, n_l1, w_initializer, b_initializer = \

['eval_net_params', tf.GraphKeys.GLOBAL_VARIABLES], 10, \

tf.random_normal_initializer(0., 0.3), tf.constant_initializer(0.1)

#c_name作为⼀个存储变量的集合，其名称为eval_net_params[]，将q估计的参数都放⼊这个集合中

#Variable()构造函数或get_variable()⾃动将新变量添加到图形集合：GraphKeys.GLOBAL_VARIABLES（默认）。

#这个⽅便函数返回该集合的内容。

#⽤于调⽤参数，将q估计的参数都放在collection这个集合当中

#tf.random_normal_initializer(mean=0.0, stddev=1.0, seed=None, dtype=tf.float32)

#返回⼀个⽣成具有正态分布的张量的初始化器

#tf.constant_initializer可以简写为tf.Constant()初始化为常数

#tf.zeros_initializer()也可以简写为tf.Zeros()

#tf.ones_initializer(), 也可以简写为tf.Ones()

# 第⼀层. collections is used later when assign to target net

with tf.variable_scope('l1'):

w1 = tf.get_variable('w1', [self.n_features, n_l1], initializer=w_initializer, collections=c_names)

b1 = tf.get_variable('b1', [1, n_l1], initializer=b_initializer, collections=c_names)

#创建⼀个变量对于get_variable()，来说，如果已经创建的变量对象，就把那个对象返回，如果没有创建变量对象的话，就创建⼀个新的。 #tf.get_variable(name, shape=None, dtype=None,

# initializer=None, regularizer=None,

# trainable=True, collections=None, 这个collection表⽰The new variable is added to these collections

# caching_device=None, partitioner=None,

# validate_shape=True, custom_getter=None)

l1 = lu(tf.matmul(self.s, w1) + b1)#python有⼴播功能,l1输出维度[None,n_l1]

688IT编程网

莫烦老师,DQN代码学习笔记

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

莫烦老师,DQN代码学习笔记

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则