Python+TF实现验证码识别--688IT编程网

Python+TF实现验证码识别导语

利⽤ +TensorFlow训练简单的验证码识别模型。。。

艾伯特（）国内第⼀家⼈⼯智能门户

要识别的验证码为最简单的Discuz验证码。。。

当然直接使⽤Tesseract这些第三⽅库也可以做到识别这些简单的验证码，准确率也还过得去。。。

但是你真的⽢⼼稀⾥糊涂地⽤现成的库嘛？

⼀波毒鸡汤之后。。。

进⼊正题hhhhh~~~

开发⼯具

版本：3.5.4

相关模块：

cv2模块；

matplotlib模块；

numpy模块；

-gpu模块；

TensorBoard模块；

win_unicode_console模块；

以及⼀些Python⾃带的模块。

其中TensorFlow-GPU版本为：

1.6.0

环境搭建

安装Python并添加到环境变量，pip安装需要的相关模块即可。

TensorFlow-GPU的环境配置请⾃⾏参考相关的⽹络！（T_T⾃⼰写⼀遍教程太⿇烦了）

补充说明：

若pip安装时下载速度不理想。

可参考以下步骤提⾼下载速度：

（1）在cmd窗⼝输⼊： %DATA%

（2）进⼊显⽰的路径

（3）在该路径下新建⼀个pip⽂件夹

（4）在该⽂件夹内创建pip.ini⽂件，写⼊内容为：

当然你也可以使⽤其他pip源：

原理简介

（1）验证码

验证码⽆⾮就是将⼀些符号转为图⽚的形式，并在图⽚⾥加⼊各种⼲扰像素。

其作⽤⽆⾮是想确定⽤户为真⼈，并以此防⽌批量注册等⾏为。

我们今天要识别的Discuz验证码类似下图：

（2）主要实现过程

Step1：

数据预处理，主要包括数据读取、标签向量化。

Step2：

搭建⽹络模型，模型结构为：3卷积层+1全连接层。

python怎么读取py文件⽹络结构基于LeNet-5改编。

提出LeNet-5的论⽂为（简书和CSDN上都有⼈对该⽹络结构做了详细介绍，有兴趣者请⾃⾏检索）：Gradient-Based Learning Applied to Document Recognition

Step3：

数据的可视化训练，主要使⽤了TensorBoard模块。

Step4：

模型使⽤⽅式的简单举例。

具体实现过程详见相关⽂件中的源代码。

额外说明

（1）由于时间和设备限制，本⼈训练的模型完全没有实⽤价值，仅作为⽰范使⽤。

T_T不在家不能⽤家⾥的台式机跑。

：

真的没骗你们。。。

相关⽂件中模型的准确率只有30%左右。

我只训练⼏轮，⽽且只⽤了200个验证码。

所以真的别傻傻地拿去⽤。。。

截图为证：

（2）相关⽂件中我提供了 6万张验证码图⽚提有需要者作为训练样本。

（3）模型参数我基本我没怎么调。

有兴趣者可微调学习率和其他⽹络参数来提⾼⽹络性能。⽹络训练参数对此模型最终好坏起决定性作⽤。

PS：

个⼈认为LeNet-5⽹络结构性能⼀般。

Why?

实验测试的时候的感觉，毕竟这个⽹络结构已经提出了好⼀段时间了。

之前看到有⼈⽤过，识别率也就90出头吧，没有仔细看他怎么训练的。

（4）标签向量化过程中，我区分了字母⼤⼩写。但⼀般⽹站是不会区分的。

因此有兴趣的同学可⾃⾏修改源代码，使得向量化过程不区分⼤⼩写，这样或许有助于提⾼准确率。

就这样吧！

使⽤演⽰

在cmd窗⼝运⾏ Vcode_Identify.py⽂件即可。

先放个：

可视化训练过程：

安装TensorBoard模块后，在cmd窗⼝输⼊类似下图的命令：

G:/Log为信息保存的位置。需与源代码46⾏相同。

请⾃⾏事先建⽴这个⽂件夹。

在浏览器中访问运⾏后显⽰的地址即可。

⾥都有，就不截图了。

模型使⽤⽅法简单举例：

源代码在test.py⽂件中。

其功能为利⽤训练好的模型识别验证码。

由于模型惨不忍睹，这⾥就不贴出结果了。。

有兴趣的同学⾃⼰看吧~~~

⽬前国内所有的⼤型⽹站都不再使⽤此类Discuz验证码，⽽是各种奇奇怪怪的。。。

毕竟此类Discuz验证码实在太low了。。。

因此以后如果有需要我会尝试破解⼀些⽐较有⽔准的验证码，当然前提⼤概是我⾃⼰需要使⽤的时候了。

688IT编程网

Python+TF实现验证码识别

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

Python+TF实现验证码识别

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式