python爬⾍图形验证码识别_python爬⾍如何识别图⽚验证
码?
爬⾍真的像别⼈说的那么强⼤,可以获取很多信息,帮助或者参考别⼈的内容,补全⾃⼰吗?实际上确实是可以实现的,但是⼤家不了解的
是,除了被动让爬⾍去爬取,很多⽹站都可有主动防御技能,⽐如,现在跟⼤家说的图⽚验证问题,爬⾍必须得去解决,不然没有办法可以
进⾏下⼀步,解决操作如下所⽰:
1、先安装⼀个pytesseract
2、接着我们就打开⼀张图⽚,使⽤ pytesseract 识别。
代码如下:captcha = Image.open("captcha1.png")result = pytesseract.image_to_string(captcha)print(result)
输出结果:没有问题。
3、我们在试试其他图⽚,如下所⽰
代码所⽰:captcha = Image.open("claptcha2.png")result = pytesseract.image_to_string(captcha)print(result)
处理结果是有问题,也许是pytesseract没有办法处理噪点⽐较⼤的内容。
4、⾸先进⾏图⽚灰度处理captcha = Image.open("captcha2.png")result = vert('L')result.show()
5、在进⾏⼆值化def convert_img(img,threshold): img = vert("L") # 处理灰
度 pixels = img.load() for x in range(img.width): for y in range(img.height): if pixels[x, y] > threshold: pixels[x
6、调⽤⼀下convert_img(captcha,150)
7、之后再跟第⼀个图⽚处理⽅式⼀样,就可以解决了哦~图片爬虫app
好啦,⼀般情况下,第⼀种⽅式,⼏⾏代码就可以处理完成,还有⼀些情况可以调⽤第⼆种⽅式,如果⼤家还想了解更多的学习知识,点击
进⼊python学习⽹即可。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论