【Python爬虫】模拟百度搜索并保存网页源代码--688IT编程网

【Python爬⾍】模拟百度搜索并保存⽹页源代码该程序为⼊门级爬⾍，巩固urllib库的基本使⽤

⽂章⽬录

分析步骤

1. 发送⼀个请求

2. 分析获取请求的url地址，参数

3. 处理参数并发送请求，获取响应

4. 把得到的响应保存⽂件

需求：爬⾍实现百度搜索并保存搜索后的⽹页源代码(第⼀页)

环境：Python 3.6

使⽤的库：urllib

使⽤的⼯具：Chrome，Pycharm

具体实现步骤

⾸先，导包

导⼊后续需要使⽤到的模块

quest

import urllib.parse

1.使⽤百度搜索任意内容

使⽤百度搜索得到了发送请求的url地址（这⾥搜索的是“苹果”）

url ='www.baidu/s?'# ?后⾯还有需要添加的参数

2.分析请求的url地址

简单地分析这个url地址后，获取需要⽤到的参数：ie=utf-8，wd=“搜索的内容”

target =input('请输⼊需要搜索的内容：')# 定义⼀个变量获取输⼊

data ={

'ie':'utf-8',# 这个参数经过测试可有可⽆，保险起见还是加上

'wd': target,# 想要搜索的内容

}

3.处理参数并发送请求

# 对参数进⾏编码

data = urllib.parse.urlencode(data)

# 合并urlpython新手代码图案如何保存

url = url + data

# 构造请求对象

request = quest.Request(url, headers=headers)

# 发送请求

response = quest.urlopen(request)

4.保存⽹页源代码

# 使⽤'wb'⽅式保存

with open('./result.html','wb')as fp:

fp.ad())

# 如果仅使⽤'w'⽅式保存，需要进⾏解码处理：

# fp.ad().decode())

最后附上程序源代码

quest

import urllib.parse

# 准备需要发送请求的url

url ='www.baidu/s?'

# 准备请求头

headers ={

'User-Agent':'Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; Acoo Browser 1.98.744; .NET CLR 3.5.30729)', }

# 键盘读取需要搜索的内容

target =input('请输⼊需要搜索的内容：')

# url上的⼀些参数

data ={

'ie':'utf-8',

'wd': target,

}

# 对参数进⾏编码

data = urllib.parse.urlencode(data)

# 合并url

url = url + data

# 构造请求对象

request = quest.Request(url, headers=headers)

# 发送请求

response = quest.urlopen(request)

# 保存⽂件

with open('./result.html','wb')as fp:

fp.ad())

688IT编程网

【Python爬虫】模拟百度搜索并保存网页源代码

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

【Python爬虫】模拟百度搜索并保存网页源代码

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式