第二章 数据解析与提取数据解析的基本概念即通过python语句从网页的html源码中提取出所需要的数据
一些基本知识
正则表达式的基本语法
元字符
量词
贪婪匹配.*
惰性匹配.*?
HTML网页的基本语法与构成
<;标签 属性=“属性值”>
被标记内容
</>
由具有父子关系的层级构成常见的标签
<a></a>超链接数据解析的三种基本方式
正则解析:re模块
findall("正则表达式","被查的对象")
search("正则表达式","被查的对象")
match("正则表达式","被查的对象")
finditer("正则表达式","被查的对象")
返回迭代器对象
要用for循环遍历
要用group方法提取
compile("正则表达式",re.S)
预加载正则表达式
re.S的作用是可以跨行匹配
一些细节
(?P<;组名>正则表达式)可对提取到的内容装入组中
strip("要弹出的内容")删去指定内容
groupdict()对组中的内容进行打包
一般requests获取源码后,要紧接着声明编码格式,避免乱码
利用time库进行休眠,避免被封ip
文件的下载要用到 content方法
bs4解析
BeautifulSoup("要提取
的数据","声明该数据的类
型")
获取源码
一般类型填为 "html.parser"
find("标签","属性值")属性值也可以写在 attrs默认参数中
find_all()返回列表对象
xpath解析
导入库from lxml import etree
xpath语法 python常用方法
etree."数据类型"("被提取的对象")作用:生成特定类型对象
etree.parse("文件名")从文件中导入对象
.
xpath("xpath路径")返回字典对象
一点细节
./相对路径
/绝对路径
[@ 属性="属性值"]标签内属性查
/@ 属性="属性值"同级属性查
xpath中下标从1 开始
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论