教你⽤TensorFlow做图像识别
弱者⽤泪⽔安慰⾃⼰,强者⽤汗⽔磨练⾃⼰。
上⼀篇⽂章⾥⾯讲了使⽤TensorFlow做⼿写数字图像识别,这篇⽂章算是它的进阶篇吧,在本篇⽂章中将会讲解如何使⽤TensorFlow识别多种类图⽚。本次使⽤的数据集是CIFAR-10,这是⼀个⽐较经典的数据集,可以去百度⼀下它的官⽹,它包含60000张32X32的彩⾊图像,其中训练集50000张,测试集10000张。⾥⾯⼀共是10类的图⽚,分别是airplane、automobile、bird、cat、deer、dog、frog、horse、ship和truck。
第⼀步我们需要下载TensorFlow Models库,你可以去github上⾯下载也可以使⽤git指令下载
git clone github/tensorflow/models.git
导⼊库,定义batch_size、训练轮数max_steps,以及下载CIFAR-10的路径
dels.tutorials.image.cifar10 import cifar10, cifar10_input
import tensorflow as tf
import numpy as np
eval是做什么的import time
max_steps=3000
batch_size=128
data_dir='/cifar10_data'
定义初始化weight的函数,使⽤tf.truncated_normal截断的正太分布,给weight加⼀个L2的loss,L2正则化可以帮助我们筛选出最有效的特征。使⽤w1控制L2 loss的⼤⼩,使⽤tf.nn.l2_loss函数计算weight的L2 loss,再使⽤tf.multiply让L2 loss乘以w1,得到最后的weight loss,使⽤tf.llection把weight loss统⼀存到⼀个collection并命名为losses,以后计算神经⽹络总体的loss会⽤。
def variable_with_weight_loss(shape,stddev,w1):
var = tf.uncated_normal(shape,stddev=stddev))
if w1 is not None:
weight_loss=tf.l2_loss(var),w1,name='weight_loss')
tf.add_to_collection('losses',weight_loss)
return var
使⽤cifar10来下载数据集,再使⽤cirfar10_input中的distorted_inputs函数产⽣训练需要使⽤的数据,包括特征及其对应的label,这⾥返回的是已经封装好的tensor,每次执⾏都会⽣成⼀个batch_size的数量的样本。⾥⾯使⽤了数据增强,包括随机的⽔平翻转、随机剪切⼀款24X24⼤⼩的图⽚、设置随机的亮度和对⽐度以及对数据进⾏标准化,如果你想了解更多,可以看看我,因为数据增强需要的计算量很⼤,所以该⽅法内部创建了16个独⽴的线程来进⾏⼯作,使⽤TensorFlow.queue进⾏调度
cifar10.maybe_download_and_extract()
images_train,labels_train=cifar10_input.distorted_inputs(data_dir=data_dir,batch_size=batch_size)
再使⽤cifar10_input.inputs来⽣成测试数据。创建holder,包含特征和label,因为batch_size在之后定义⽹络被⽤到了,所以数据尺⼨中的第⼀个值需要被预先设定,⼤⼩为24X24,颜⾊通道为3。
images_test,labels_test=cifar10_input.inputs(eval_data=True,data_dir=data_dir,batch_size=batch_size)
image_holder=tf.placeholder(tf.float32,[batch_size,24,24,3])
label_holder=tf.placeholder(tf.int32,[batch_size])
开始创建第⼀个卷积层,先使⽤之前写好的variable_with_weight_loss函数创建卷积核的参数并初始化。第⼀个卷积层使⽤5X5的卷积核,3个颜⾊通道,64个卷积核,设置weight初始化参数的标准差为0.05。不对第⼀层卷积进⾏L2正则,所以w1设为0.使⽤
weight1=variable_with_weight_loss(shape=[5,5,3,64],stddev=5e-2,w1=0.0)
v2d(image_holder,weight1,[1,1,1,1],padding='SAME')
bias1=tf.stant(0.0,shape=[64]))
bias_add(kernel1,bias1))
ax_pool(conv1,ksize=[1,3,3,1],strides=[1,2,2,1],padding='SAME')
lrn(pool1,4,bias1=1.0,alpha=0.01/9.0,beta=0.75)
第⼆层卷积步骤和第⼀层差不多,不同的是bias值全部初始化为0.1,最后再调换最⼤池化层和lrn层的位置。
weight2=variable_with_weight_loss(shape=[5,5,64,64],stddev=5e-2,w1=0.0)
v2d(norm1,weight2,[1,1,1,1],padding='SAME')
bias2=tf.stant(0.1,shape=[64]))
bias_add(kernel2,bias2))
lrn(conv2,4,bias=1.0,alpha=0.01/9.0,beta=0.75)
ax_pool(norm2,ksize=[1,3,3,1],strides=[1,2,2,1],padding='SAME')
连接⼀个全连接层,将之前的输出结果flatten,使⽤tf.reshape函数将每个样本变成⼀维向量。使⽤get_shape获取数据扁平化后的长度。再使⽤variable_with_weight_loss函数对全连接层的weight进⾏初始化,这⾥的隐藏节点数为384,正太分布分标准差设为0.04,bias值初始化为0.1。需要注意的是
我们不希望全连接层过拟合,所以设置了⼀个⾮零的weight loss值为0.04,让这⼀层所有的参数被L2正则约束。最后使⽤ReLU激活函数进⾏⾮线性化。
shape(pool2,[batch_size,-1])
_shape()[1].value
weight3=variable_with_weight_loss(shape=[dim,384],stddev=0.04,w1=0.004)
bias3=tf.stant(0.1,shape=[384]))
lu(tf.matmul(reshape,weight3)+bias3)
再来⼀层全连接,把隐藏节点数降低⼀半
weight4=variable_with_weight_loss(shape=[384,192],stddev=0.04,w1=0.004)
bias4=tf.stant(0.1,shape=[192]))
lu(tf.matmul(local3,weight4)+bias4)
创建最后⼀层,先创建weight,将其正太分布标准差设为上⼀隐含层的节点数的导数,并且不计⼊L2正则。
weight5=variable_with_weight_loss(shape=[192,10],stddev=1/192.0,w1=0.0)
bias5=tf.stant(0.0,shape=[10]))
logits=tf.add(tf.matmul(local4,weight5),bias5)
接下来计算CNN的loss,计算softmax和cross_entropy_loss,使⽤tf.reduce_mean对cross_enteopy计算均值,再⽤
tf.add_to_collection把cross_entropy的loss添加到整体losses的collection中。最后使⽤tf.add_n将全部loss求和
def loss(logits,labels):
labels=tf.cast(labels,tf.int64)
cross_sparse_softmax_cross_entropy_with_logits(logits=logits,labels=labels,name='cross_entropy_per_example')
cross_entropy_duce_mean(cross_entropy,name='cross_entropy')
tf.add_to_collection('losses',cross_entropy_mean)
return tf.add__collection('losses'),name='total_loss')
将logits节点和label_placeholder传⼊loss函数,得到最后的loss.
优化器使⽤adam,学习率设置为1e-3.
使⽤tf.nn.in_top_k函数求输出结果中top_k的准确率,默认使⽤top_1,也就是输出分数最⾼的那⼀类的准确率。
使⽤tf.InteractiveSession创建默认Session,初始化所有参数。
启动线程。
loss=loss(logits,label_holder)
train_ain.AdamOptimizer(1e-3).minimize(loss)
top_k_in_top_k(logits,label_holder,1)
sess=tf.InteractiveSession()
tf.global_variables_initializer().run()
开始正式训练,在每⼀个step的训练过程中,先⽤session的run⽅法执⾏image_train,labels_train的计算,获得⼀个batch的训练数据,再将这个batch的数据传⼊train_op和loss的计算。记录每⼀个step所消耗的时间,没10个step会打印⼀下loss,训练速率以及训练⼀个batch所消耗的时间。没有gpu会跑的⽐较慢。
for step in range(max_steps):
start_time=time.time()
image_batch,label_batch=sess.run([images_train,labels_train])
_,loss_value=sess.run([train_op,loss],feed_dict={image_holder:image_batch,label_holder:label_batch})
duration=time.time()-start_time
if step % 10==0:
examples_per_sec=batch_size/duration
sec_per_batch=float(duration)
format_str=('step %d,loss=%.2f(%.1f examples/sec; %.3f sec/batch)')
print(format_str%(step,loss_value,examples_per_sec,sec_per_batch))
接下来评测模型再测试集上的准确率,像训练那样⼀个batch⼀个batch进⾏测试,记录正确的数量,最后求得准确率并打印。
num_examples=10000
import math
num_iter=il(num_examples/batch_size))
true_count=0
total_sample_count=num_iter*batch_size
step=0
while step < num_iter:
image_batch,label_batch=sess.run([images_test,images_test])
predictions=sess.run([top_k_op],feed_dict={image_holder:image_batch,label_holder:label_batch})
true_count+=np.sum(predictions)
step+=1
precision=true_count/total_sample_count
print('precision @ 1=%.3f'%precision)
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论