python爬虫数据解析与提取思维导图脑图--688IT编程网

第二章数据解析与提取数据解析的基本概念即通过python语句从网页的html源码中提取出所需要的数据

一些基本知识

正则表达式的基本语法

元字符

量词

贪婪匹配.*

惰性匹配.*？

HTML网页的基本语法与构成

<；标签属性=“属性值”>

被标记内容

</>

由具有父子关系的层级构成常见的标签

<a></a>超链接数据解析的三种基本方式

正则解析：re模块

findall("正则表达式","被查的对象")

search("正则表达式","被查的对象")

match("正则表达式","被查的对象")

finditer("正则表达式","被查的对象")

返回迭代器对象

要用for循环遍历

要用group方法提取

compile("正则表达式"，re.S)

预加载正则表达式

re.S的作用是可以跨行匹配

一些细节

(?P<；组名>正则表达式)可对提取到的内容装入组中

strip("要弹出的内容")删去指定内容

groupdict()对组中的内容进行打包

一般requests获取源码后，要紧接着声明编码格式，避免乱码

利用time库进行休眠，避免被封ip

文件的下载要用到 content方法

bs4解析

BeautifulSoup("要提取

的数据","声明该数据的类

型")

获取源码

一般类型填为 "html.parser"

find("标签","属性值")属性值也可以写在 attrs默认参数中

find_all()返回列表对象

xpath解析

导入库from lxml import etree

xpath语法 python常用方法

etree."数据类型"("被提取的对象")作用：生成特定类型对象

etree.parse("文件名")从文件中导入对象

xpath("xpath路径")返回字典对象

一点细节

./相对路径

/绝对路径

[@ 属性="属性值"]标签内属性查

/@ 属性="属性值"同级属性查

xpath中下标从1 开始

发表评论

688IT编程网

python爬虫数据解析与提取思维导图脑图

发表评论

推荐文章

mongodb中match多个条件

纯数字正则表达式

zipkin tagquery用法

excel匹配正则 -回复

re正则匹配之findall

热门文章

js 数值型验证正则

oracle模糊查询正则

符合ca91的社会信用代码的正则表达式

C#中使用正则表达式校验输入的是否为英文字母【转载自】

Java正则表达式验证至少6位表达式中至少包含数字大小写字母中的一种

强密码校验正则

hive正则表达式解析

p开头的正则表达式

思源笔记正则表达

用正则表达式限制文本框只能输入数字,小数点,英文字母,汉字等各类代 ...

Powerquery分离数字字母汉字

php+正则将字符串中的字母数字和中文分割

前端密码的正则表达式

vue 正则表达式 function 开头中文字母数字 (结尾

el-input 英文名称的正则

32个字符正则

四位英文和数字正则

字母正则匹配中文规则

8-14位字母、数字或符号组合正则

长度不小于4的正则表达式

最新文章

纯数字正则表达式

zipkin tagquery用法

1-4096的整数正则表达式

正则10-360之间的整数

验证整数的正则表达式

正则匹配整数

标签列表

688IT编程网

python爬虫 数据解析与提取思维导图 脑图

发表评论

推荐文章

mongodb中match多个条件

纯数字正则表达式

zipkin tagquery用法

excel匹配正则 -回复

re正则匹配之findall

热门文章

js 数值型 验证 正则

oracle模糊查询正则

符合ca91的社会信用代码的正则表达式

C#中使用正则表达式校验输入的是否为英文字母【转载自】

Java正则表达式验证至少6位表达式中至少包含数字大小写字母中的一种

强密码校验正则

hive正则表达式解析

p开头的正则表达式

思源笔记正则表达

用正则表达式限制文本框只能输入数字,小数点,英文字母,汉字等各类代 ...

Powerquery分离数字字母汉字

php+正则将字符串中的字母数字和中文分割

前端密码的正则表达式

vue 正则表达式 function 开头 中文字母数字 (结尾

el-input 英文名称的正则

32个字符正则

四位英文和数字 正则

字母正则匹配中文规则

8-14位字母、数字或符号组合正则

长度不小于4的正则表达式

最新文章

纯数字正则表达式

zipkin tagquery用法

1-4096的整数正则表达式

正则10-360之间的整数

验证整数的正则表达式

正则匹配整数

标签列表

python爬虫数据解析与提取思维导图脑图

js 数值型验证正则

vue 正则表达式 function 开头中文字母数字 (结尾

四位英文和数字正则