正方验证码智能识别及教务系统模拟登录--688IT编程网

正⽅验证码智能识别及教务系统模拟登录

⽂章⽬录

前⾔

之前写了⼀个正⽅教务系统登录的程序，当时验证码使⽤的是⼿动输⼊，觉得太了，这种⽤途的脚本怎么可以让这种⼩⼩验证码拦住呢！︿(￣︶￣)︿，我们要的可是完全不要⼈⼯的爬⾍啊！你可知道！┑(￣Д ￣)┍

有想法很好，我们就开始做吧！

⼀、验证码数据集获取

这⾥我从github上下载了数据集，⼤概五百张图⽚，⾮常感谢其提供者。

数据集我放在我的源码⾥⾯了，需要的话，可以⾃⾏下载，github链接在底部，此处不赘述。

⼆、图像处理

2.1 验证码图⽚转灰度、⼆值化、去噪点

def GrayscaleAndBinarization(image):

'''

灰度并⼆值化图⽚

:param image:

:return:

'''

threshold =17# 需要⾃⼰调节阈值，17效果不错哦！

tmp_image = vert('L')# 灰度化

new_image = w('L', tmp_image.size,0)

# 初步⼆值化

for i in range(tmp_image.size[1]):

for j in range(tmp_image.size[0]):

if pixel((j, i))> threshold:

new_image.putpixel((j, i),255)

else:

new_image.putpixel((j, i),0)

# 去噪，去除独⽴点，将前后左右等九宫格中灰度通道值均为255的像素点的通道值设为255

for i in range(1, new_image.size[1]-1):

for j in range(1, new_image.size[0]-1):

if pixel((j, i))==0and pixel((j -1, i))==255and pixel((j +1, i))==255and \

pixel((j, i -1))==255and pixel((j -1, i -1))==255and pixel((j +1, i -1))==255and \

pixel((j, i +1))==255and pixel((j -1, i +1))==255and pixel((j +1, i +1))==255:

new_image.putpixel((j, i),255)

return new_image

2.2 对图像进⾏切割

在训练之前，我们需要获取每个字符的数据，作为训练集，所以我们把验证码中的字符切割开来。之前我还使⽤算法进⾏检测切割位置，后来发现完全没有必要啊！（＝。＝），验证码中总共四个字符，我⽤⼿指⼀⽐，其中每个字母都处于⼤致区间内，这就简单了我们的⼯作，我们只要在固定的区间内进⾏切割，就能保证四个字符能够完好的被分开。

def SplitImage(image):

'''

切割图像并保存，关键在于寻切割位置

:param image:

:return:

'''

splitSite =[0,16,28,41]# 这个位置⾮常好，nice

splitSite.append(54)

# 对图⽚进⾏切割

new_image =[]

for index in range(1,len(splitSite)):

box =(splitSite[index -1],0, splitSite[index], image.size[1])

new_image.p(box))

return new_image

2.3 批量处理图⽚数据

下⾯的是数据集⽂件夹。

⾸先我们写⼀个函数获取该⽂件夹下验证码⽂件的⽂件名，作为标签。

def GetFileName(filePath):

'''

返回指定⽂件夹下⽂件的⽂件名

:param filePath:

:return:

'''

filenames =[]

for filename in os.listdir(filePath):

filenames.append(filename)

return filenames

接下来我们批处理所有图⽚

def SplitAllImage():

'''

分割所有图⽚

:return:

'''

# dict 记录每个字符的数⽬

dict={

'0':0,'1':0,'2':0,'3':0,'4':0,'5':0,'6':0,'7':0,'8':0,'9':0,

'a':0,'b':0,'c':0,'d':0,'e':0,'f':0,'g':0,'h':0,'i':0,'j':0,'k':0,'l':0,'m':0,'n':0,

'o':0,'p':0,'q':0,'r':0,'s':0,'t':0,'u':0,'v':0,'w':0,'x':0,'y':0,'z':0

}

filenames = GetFileName('./images/data_biaoji')

for item in filenames:# 图⽚名称

image = Image.open('./images/data_biaoji/{}'.format(item))

tmp_image = GrayscaleAndBinarization(image)

data_image = SplitImage(tmp_image)

for i in range(len(data_image)):# 此处值为4，对切割后的四张图⽚进⾏处理

dict[item[i]]=dict[item[i]]+1

data_image[i]= data_image[i].resize((14,27))

data_image[i].save('./images/data/{}/{}.jpg'.format((item[i]),dict[item[i]]))# 总共获取了1884张图⽚

print(dict)

三、图像特征提取

机器如何能够识别图像的呢？当然是转化为机器识别的数字啊！这时我们将经图像处理后的图⽚进⾏特征提取，将各个像素的通道值提取到⼀个列表中。

3.1 所有图像特征值提取

def returnDataAndLabel(path='./images/data'):

'''

返回全部数据

:param path: 图⽚路径

:return: data 和 label

'''

raw =[]

datas =[]# 特征

labels =[]# 标记

for item1 in os.listdir(path):# ⽂件路径

label = item1

for item2 in os.listdir(path +'/'+ item1):

data =[]

image = Image.open(path +'/'+ item1 +'/'+ item2).resize((14,27)) for i in range(image.size[1]):# 读取像素通道值

for j in range(image.size[0]):

data.pixel((j, i)))

data.append(label)# ⼀张图⽚的数据

if len(data)==(14*27+1):# 图⽚尺⼨

raw.append(data)

for i in range(len(raw)):

tmp_data = raw[i][:-1]

tmp_label = raw[i][-1]

labels.append(tmp_label)

datas.append(tmp_data)

return datas, labels

3.2 单张图⽚特征值提取

def featuretransfer(image):

'''

返回特征向量，预测时⽤

:param image: 图像

:param label: 图像所属标签

return: 特征向量

'''

features =[]

image = size((14,27))

for i in range(image.size[1]):

for j in range(image.size[0]):

features.pixel((j, i)))

return features

四、模型训练

集成学习较⼀般学习器往往有较好的效果，此处使⽤了随机森林算法

def trainModel(datas, labels, isSave=True, path='./del'):

'''

训练模型

:param datas: 数据集

:param labels: 标签

:return: 模型

'''

X_train, X_test, y_train, y_test = train_test_split(datas, labels, test_size=0.3, random_state=30)

clf = RandomForestClassifier(n_estimators=500, max_depth=10, min_samples_split=10, random_state=0)

clf.fit(X_train, y_train)

y_pred = clf.predict(X_test)

score = accuracy_score(y_test, y_pred)

print('Accuracy score:', score)

if isSave:

joblib.dump(clf, path)

return clf

ps: 最后发现效果不错，单个字符识别正确率能达到84%多，模型没有调参，有兴趣的同学可以继续调节使准确率更⾼。但这⾥我⼜想到了⼀点，单个字符识别率有84%，但正⽅验证码有四个字符，准确率那就是84%*84%*84%*84% = 0.49，妈呀！识别率⼀下降了这么多，能⽤吗？？

五、实际测试

测试主要使⽤正⽅教务系统进⾏登录进⾏实际测试，这⾥有关爬⾍，就不细说了，登录代码摆上

import requests

from pyquery import PyQuery as pq

from urllib import parse

als import joblib

from ProcessingImage import*# ⾃定义模块

import re

import json

class SCHOOL(object):

def__init__(self):

self.headers ={

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:60.0) Gecko/20100101 Firefox/60.0',

}

self.username ='**********'# 学号

self.password ='**********'# 密码

self.name =''

self.url_base ='***.***.***.***/'# 这⾥换成⾃⼰学校的地址

self.raw_url = self.url_base +'default2.aspx'

self.url_1 =''

self.login_url =''getsavefilename

self.session = requests.Session()

<_real_url()

self.login()

def get_real_url(self):

'''

获取真实的登录url

:return:

'''

response1 = (self.raw_url, headers=self.headers)

self.login_url = response1.url

self.url_1 = al_url +'/xs_main.aspx?xh='+ self.username

def loadModel(self, filename):

688IT编程网

正方验证码智能识别及教务系统模拟登录

发表评论

推荐文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

正方验证码智能识别及教务系统模拟登录

发表评论

推荐文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

非零金额正则表达式

半小时正则表达式