基于CNN-LSTM的手写数字识别与应用实现(附tensorflow代码讲解)--688IT编程网

基于CNN-LSTM的⼿写数字识别与应⽤实现（附tensorflow代

码讲解）

摘要

CNN卷积神经⽹络是图像识别和分类等领域常⽤的模型⽅法。由于CNN模型训练效果与实际测试之间存在较⼤的差距，为提⾼⾃由⼿写数字的识别率，尝试使⽤TensorFlow搭构CNN-LSTM⽹络模型，在完成MNIST数据集训练的基础上，基于python的flask框架实现对⾃由⼿写数字的识别，并展⽰线性回归模型、CNN模型及CNN-LSTM模型在⼿写数字上的识别结果。

CNN-LSTM模型代码实现

CNN-LSTM的tensorflow版本实现：

def cnn_lstm(x):

# 以正太分布初始化weight

def weight_variable(shape):

initial = tf.truncated_normal(shape, stddev=0.1)

return tf.Variable(initial)

# 以0.1这个常量来初始化bias

def bias_variable(shape):

initial = tf.constant(0.1, shape=shape)

return tf.Variable(initial)

def conv2d(x, W):

v2d(x, W, strides=[1, 1, 1, 1], padding='SAME')

# 池化

def max_pool_2x2(x):

ax_pool(x, ksize=[1, 2, 2, 1],strides=[1, 2, 2, 1], padding='SAME')

with tf.variable_scope('input'):

x = tf.reshape(x, [-1, 28, 28, 1])

with tf.variable_scope('conv_pool_1'):

W_conv1 = weight_variable([5, 5, 1, 32])

b_conv1 = bias_variable([32])

h_conv1 = lu(conv2d(x, W_conv1) + b_conv1)

h_pool1 = max_pool_2x2(h_conv1)

with tf.variable_scope('conv_pool_2'):

W_conv2 = weight_variable([5, 5, 32, 64])

b_conv2 = bias_variable([64])

h_conv2 = lu(conv2d(h_pool1, W_conv2) + b_conv2)

h_pool2 = max_pool_2x2(h_conv2)

X_in = tf.reshape(h_pool2, [-1, 49, 64])

X_in = tf.transpose(X_in, [0, 2, 1])

with tf.variable_scope('lstm'):

lstm_cell = BasicLSTMCell(

128, forget_bias=1.0, state_is_tuple=True)

outputs, states = tf.nn.dynamic_rnn(

lstm_cell, X_in, time_major=False, dtype=tf.float32)

W_lstm = weight_variable([128, 10])

b_lstm = bias_variable([10])

outputs = tf.anspose(outputs, [1, 0, 2]))

y = tf.nn.softmax(tf.matmul(outputs[-1], W_lstm) + b_lstm)

train_vars = tf.trainable_variables()

return y, train_vars

上⾯已经定义好了CNN-LSTM整个完整的模型，下⾯我们将在另⼀个.py⽂件下调⽤他。

from model import cnn_lstm

接着开始调⽤（下载）MNIST数据集，其中one_hot=True，该参数的功能主要是将图⽚向量转换成one_hot类型的张量输出。

在调⽤CNN-LSTM模型后，需要在训练模型的这个.py⽂件定义模型，其中x = tf.placeholder为输⼊变量占位符，在训练前就要指定。

with tf.variable_scope('cnn_lstm'):

x = tf.placeholder(tf.float32, [None, 784], name='x')

y, variables = cnn_lstm(x)

接着为了训练模型，需要⾸先进⾏添加⼀个新的占位符⽤于输⼊正确值，接着定义交叉熵损失函数、学习速率等。

y_ = tf.placeholder('float', [None, 10])

cross_entropy = tf.reduce_mean(

train_step = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)

correct_pred = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1))

accuracy = tf.reduce_mean(tf.cast(correct_pred, tf.float32))

开始训练模型之前，在Session⾥⾯启动模型，其中accuracy.eval(feed_dict={x: batch[0], y_: batch[1]})计算所学习到的模型的正确率。

#saver = tf.train.Saver(variables)

with tf.Session() as sess:

merged_summary_op = _all()

summary_write = tf.summary.FileWriter('tmp/mnist_log/1', aph)

summary_write.add_aph)

sess.run(tf.global_variables_initializer())

for i in range(20000):

batch = _batch(50)

if i % 100 == 0:

tensorflow版本选择

train_accuracy = accuracy.eval(feed_dict={x: batch[0], y_: batch[1]})

print("Step %d, training accuracy %g" % (i, train_accuracy))

sess.run(train_step, feed_dict={x: batch[0], y_: batch[1]})

result = []

for i in range(2000):

batch = _batch(50)

result.append(sess.run(accuracy, feed_dict={x: batch[0], y_: batch[1]}))

print(sum(result)/len(result))

训练代码完整如下：

# 定义模型

with tf.variable_scope('cnn_lstm'):

x = tf.placeholder(tf.float32, [None, 784], name='x')

y, variables = cnn_lstm(x)

# 训练

y_ = tf.placeholder('float', [None, 10])

cross_entropy = tf.reduce_mean(

train_step = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)

correct_pred = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1))

accuracy = tf.reduce_mean(tf.cast(correct_pred, tf.float32))

saver = tf.train.Saver(variables)

with tf.Session() as sess:

merged_summary_op = _all()

summary_write = tf.summary.FileWriter('tmp/mnist_log/1', aph)

summary_write.add_aph)

sess.run(tf.global_variables_initializer())

for i in range(20000):

batch = _batch(50)

if i % 100 == 0:

train_accuracy = accuracy.eval(feed_dict={x: batch[0], y_: batch[1]})

print("Step %d, training accuracy %g" % (i, train_accuracy))

sess.run(train_step, feed_dict={x: batch[0], y_: batch[1]})

result = []

for i in range(2000):

batch = _batch(50)

result.append(sess.run(accuracy, feed_dict={x: batch[0], y_: batch[1]}))

print(sum(result)/len(result))

训练结束后，将CNN-LSTM模型的训练参数进⾏保存，其实现代码如下：

path = saver.save(sess,os.path.join(os.path.dirname(__file__), 'data', 'cnn_lstm.ckpt'), write_meta_graph=False,write_state=False )

⼿写数字应⽤实现

在信息化飞速发展的时代，光学字符识别是⼀个重要的信息录⼊与信息转化的⼿段。其中，⼿写体数字的识别有着⾮常⼴泛的应⽤(如：，统计报表，财务报表，银⾏票据等等)。因此,⼿写数字的识别研究有着重⼤的现实意义，⼀旦研究成功并投⼊应⽤，将产⽣巨⼤的社会和经济效益。本部分在训练完⼗个阿拉伯数字的模型参数后，将⼿写数字识别的TF模型部署到Web中，前端负责获取⽤户在页⾯上⼿写数字图像并预处理，再向服务器发出AJAX请求，请求内容为待识别的图像。服务器端程序⽣成TF会话并加载训练好的模型，调⽤相应的视图函数将请求数据送⼊TF会话中计算，最后将识别结果异步回传到前端。其实现界⾯如下：

左边的绘制画布是⼀个⽤canvas标签实现的320×320像素的画布。使⽤canvas对象的getContext()⽅法可得到⼀个绘图环境，该环境提供了在画布上绘图的⽅法和属性。绘制画布绑定⿏标事件的，当⽤户按下并拖动⿏标时，可将⿏标移动的路径(经过的像素点)呈现到绘制画布上，这样⽤户可在绘制画布上使⽤⿏标书写数字。⼿写数字图像存储为uint8类型的像素矩阵，每⼀个位置的像素点包括R、G、B、A四个通道值。输⼊处理框为输⼊图像为尺⼨为320×320像素原始⼿写数字图像应在前端完成尺⼨调

整和灰度化等预处理，再发送给服务器，以便减少向服务器传输的图像数据量。右边模型输出结果为三个模型预测输出的结果。

其实现输出的结果如下：

结论

节省⼈⼒，物⼒，财⼒，以提⾼数字信息的处理效率，应⽤新型计算机技术进⾏⾃动识别数字成为了⼀个热门研究⽅向。本⽂针对基于TensorFlow深度学习框架完成⼿写体数字的识别⽅法的研究与实现，⾸

先建⽴了基于TensorFlow深度学习框架的CNN-LSTM模型结构，针对⼿写体数据集MNIST的训练数据集进⾏训练之后，基于flask框架实现了⼀款⼿写数字识别Web应⽤程序，为TF模型在Web中部署和开发

应⽤提供参考。

688IT编程网

基于CNN-LSTM的手写数字识别与应用实现(附tensorflow代码讲解)

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

基于CNN-LSTM的手写数字识别与应用实现(附tensorflow代码讲解)

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式