python识别屏幕内容_python之屏幕抓取--688IT编程网

python识别屏幕内容_python之屏幕抓取

Tidy 和 HTML 解析

Beautiful Soup

屏幕抓取：是通过程序下载⽹页并从中提取信息的过程。

python怎么读取桌面上的文件简单来见：下载数据并对其进⾏分析

思路：可使⽤urllib来获取⽹页的HTML代码，再使⽤正则表达式从中提取信息。

通过查看该⽹站的源代码，可发现类似于下⾯的链接中到名称和URL：

如下：简单的屏幕抓取程序

quest importurlopenimportre

p= repile('')

text= urlopen('/jobs').read().decode()for url,name inp.findall(text):print('{}({})'.format(name,url))

以上代码需要跟进的地⽅：

1.正则表达式⼀点都不容易理解。如果HTML代码和查询更复杂，那正则表达式就难以理解和维护

2.⽆法处理独特的HTML内容；⽐如CDATA部分和实符字体（如&）

正则表达式依赖于HTML代码的细节，并不是抽象的结构；意味着只要⽹页的结构发⽣⼀点点变化，那这个程序可能就⽆效了。

针对基于正则表达式的⽅法存在的问题，可有两种解决⽅案：

（1）结合使⽤程序Tidy（⼀个python库）和XHTML解析

(2) 使⽤专为屏幕抓取⽽设计的Beautiful Soup

Tidy 和XHTML解析

Tidy是⽤于对格式不正确且不严谨的HTML进⾏修复的⼯具，它⾮常聪明，能够修复很多常见的错误，从⽽完成⼤量你不愿意做的⼯作。它还提供了极⼤的配置空间，让你能够开 / 关各种校正。

当然，Tidy并不能修复HTML⽂件存在的所有问题，但确实能够确保⽂件是格式良好的（即所有元素都

嵌套正确），这让解析⼯作容易很多。

获取Tidy

有多个⽤于python的Tidy库包装器，⾄于哪个最新并⾮固定不变的，使⽤pip来出可供使⽤的包装器：

$pip search tidy

可选择安装PyTidyLib：

$ pip install pytidylib

并⾮⼀定要安装Tidy库包装器。如果你是⽤的是unix或者linux系统，很可能已经默认安装了命令⾏版Tidy。此外，不管使⽤的是什么系统，都可以从Tidy⽹站上获取可执⾏的⼆进制版本，有了⼆进制版本之后，就可以使⽤模块subprocess（或其他包含open函数的模块）来运⾏Tidy程序了。

如果python不到tidy，可能需要提供这个可执⾏⽂件的完整路径。

XHTML 和 HTML的主要区别在于，XHTML⾮常严格，要求显式地结束所有的元素；

因此，在HTML可通过（使⽤标签

）开始另⼀个段落来结束当前段落，但在XHTML中，必须先（使⽤标签

）显式地结束当前段落。这让XHTML解析起来容易得多，因为你能清除地直到何时进⼊或者离开各种元素，

XHTML的另⼀个优点：它是⼀种XML⽅⾔，可⾷⽤各种出⾊的⼯具（XPath）来处理

要求对Tidy⽣成的格式良好的XHTML进⾏解析，⼀种⾮常简单的⽅式就是使⽤标准库模块html.parser中的HTMLParser类待补充～

688IT编程网

python识别屏幕内容_python之屏幕抓取

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

python识别屏幕内容_python之屏幕抓取

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式