Python爬虫中的数据采集和分析--688IT编程网

Python爬⾍中的数据采集和分析

数据采集和解析

通过⼀⽂，我们已经了解到了开发⼀个爬⾍需要做的⼯作以及⼀些常见的问题，⾄此我们可以对爬⾍开发需要做的⼯作以及相关的技术做⼀个简单的汇总，这其中可能会有⼀些我们之前没有使⽤过的第三⽅库，不过别担⼼，这些内容我们稍后都会⼀⼀讲到。

1. 下载数据 - urllib / requests / aiohttp。

2. 解析数据 - re / lxml / beautifulsoup4（bs4）/ pyquery。

3. 缓存和持久化 - pymysql / sqlalchemy / peewee/ redis / pymongo。

4. ⽣成数字签名 - hashlib。

5. 序列化和压缩 - pickle / json / zlib。

6. 调度器 - 进程（multiprocessing） / 线程（threading） / 协程（coroutine）。

HTML页⾯分析

<!DOCTYPE html>

<head>

</head>

<body>

<h1>Hello, world!</h1>

<hr>

<div>

<p id="bar">疑似地上霜</p>

<div><a href="www.baidu"><p>低头思故乡</p></a></div>

</div>

<table>

<tr>

</tr>

</table>

</body>

</html>

如果你对上⾯的代码并不感到陌⽣，那么你⼀定知道HTML页⾯通常由三部分构成，分别是⽤来承载内容的Tag（标签）、负责渲染页⾯的CSS（层叠样式表）以及控制交互式⾏为的JavaScript。通常，我们可以在浏览器的右键菜单中通过“查看⽹页源代码”的⽅式获取⽹页的代码并了解页⾯的结构；当然，我们也可以通过浏览器提供的开发⼈员⼯具来了解⽹页更多的信息。

使⽤requests获取页⾯

1. GET请求和POST请求。

2. URL参数和请求头。

3. 复杂的POST请求（⽂件上传）。

4. 操作Cookie。

5. 设置代理服务器。

说明：关于requests的详细⽤法可以参考它的。

四种采集⽅式

四种采集⽅式的⽐较

抓取⽅法速度使⽤难度备注

正则表达式快困难

常⽤正则表达式在线正则表达式测试

lxml快⼀般需要安装C语⾔依赖库唯⼀⽀持XML的解析器

BeautifulSoup较快/较慢（取决于解析器）简单

PyQuery较快简单Python版的jQuery 说明：BeautifulSoup可选的解析器包括：Python标准库（html.parser）、lxml的HTML解析器、lxml的XML解析器和html5lib。使⽤正则表达式

如果你对正则表达式没有任何的概念，那么推荐先阅读，然后再阅读我们之前讲解在Python中如何使⽤正则表达式⼀⽂。

使⽤XPath和Lxml

BeautifulSoup的使⽤

BeautifulSoup是⼀个可以从HTML或XML⽂件中提取数据的Python库。它能够通过你喜欢的转换器实现惯⽤的⽂档导航、查、修改⽂档的⽅式。

1. 遍历⽂档树

1. 获取标签

2. 获取标签属性

3. 获取标签内容

4. 获取⼦（孙）节点

5. 获取⽗节点/祖先节点

6. 获取兄弟节点

2. 搜索树节点

1. find / find_all

2. select_one / select

说明：更多内容可以参考BeautifulSoup的。

PyQuery的使⽤

pyquery相当于jQuery的Python实现，可以⽤于解析HTML⽹页。实例 - 获取知乎发现上的问题链接

from urllib.parse import urljoin

import re

import requests

from bs4 import BeautifulSoup

def main():

headers = {'user-agent': 'Baiduspider'}

proxies = {

'http': '122.114.31.177:808'

}

base_url = 'www.zhihu/'

seed_url = urljoin(base_url, 'explore')

resp = (seed_url,

安卓在线解析jsonheaders=headers,

proxies=proxies)

soup = , 'lxml')

href_regex = repile(r'^/question')

link_set = set()

for a_tag in soup.find_all('a', {'href': href_regex}):

if 'href' in a_tag.attrs:

href = a_tag.attrs['href']

full_url = urljoin(base_url, href)

link_set.add(full_url)

print('Total %d question pages found.' % len(link_set))

if __name__ == '__main__':

main()

688IT编程网

Python爬虫中的数据采集和分析

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

Python爬虫中的数据采集和分析

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式