爬虫抓取百度指数思路总结--688IT编程网

爬⾍抓取百度指数思路总结

百度指数抓取思路

浏览器截图+OCR识别，因为百度指数的数值是采⽤html格式+加密⼆进制传输，怎么都是需要OCR的。selenium获取cookie

浏览器截图：截取百度指数位置的⼦图⽚，截整个页⾯的图⽐较容易，要获取指数所在的span的位置，直接调⽤html的元素

的getSize和getLocation返回都是0，简单粗暴地⽤硬编码了。

OCR的时候，调⽤tesseract，识别数字，不需要安装额外的识别数据，直接调⽤tesseract test. -l eng -psm 7 digits就可以把识别结果输出到⽂本⽂件。⽤ocr把数字识别出来

⽤GooSeeker把图、css参数等等抓取下来，根据css的定位，把数字⼩图切下来，合⼀起交给ocr。

百度指数在显⽰每个点的指数的时候，会发送请求，这个请求相关的参数需要根据前⾯页⾯的返回结果来查，请求的结果也是HTML+加密图像数据，要识别还是需要OCR的。

1、⾸先得模拟登陆百度账号（⽤selenium+PhantomJS模拟登陆百度，获取cookie）

2、由于有该死的验证码，因此我们要绕过验证码，保存cookie模拟登陆（绕过万恶的验证码）

3、然后模拟登陆以后，程序截取屏幕保存到本地图⽚。（屏幕截屏）

4、读取本地图⽚。（读取图⽚）

5、到搜索指数所在区域，裁剪图⽚。（裁剪图⽚）

6、下⾯就是进⾏图像识别，或者说验证码识别了。（去灰度化，⼆值化，图像识别）

把⽣成的折线图表整图截图，然后进⾏图表识别。

发表评论

688IT编程网

爬虫抓取百度指数思路总结

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

爬虫抓取百度指数思路总结

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式