java爬虫preview数据_从零开始带你掌握爬虫的基本流程--688IT编程网

java爬⾍preview数据_从零开始带你掌握爬⾍的基本流程简单来说互联⽹是由⼀个个站点和⽹络设备组成的⼤⽹，我们通过浏览器访问站点，站点把HTML、JS、CSS代码返回给浏览器，这些代码经过浏览器解析、渲染，将丰富多彩的⽹页呈现我们眼前;

　⼀、爬⾍是什么?

如果我们把互联⽹⽐作⼀张⼤的蜘蛛⽹，数据便是存放于蜘蛛⽹的各个节点，⽽爬⾍就是⼀只⼩蜘蛛，

沿着⽹络抓取⾃⼰的猎物(数据)爬⾍指的是：向⽹站发起请求，获取资源后分析并提取有⽤数据的程序;

从技术层⾯来说就是通过程序模拟浏览器请求站点的⾏为，把站点返回的HTML代码/JSON数据/⼆进制数据(图⽚、视频) 爬到本地，进⽽提取⾃⼰需要的数据，存放起来使⽤;

⼆、爬⾍的基本流程：

⽤户获取⽹络数据的⽅式：

⽅式1：浏览器提交请求--->下载⽹页代码--->解析成页⾯

⽅式2：模拟浏览器发送请求(获取⽹页代码)->提取有⽤的数据->存放于数据库或⽂件中

爬⾍要做的就是⽅式2;

1、发起请求

使⽤http库向⽬标站点发起请求，即发送⼀个Request

Request包含：请求头、请求体等structural distributing

Request模块缺陷：不能执⾏JS 和CSS 代码

2、获取响应内容

plt subplots 的用法

如果服务器能正常响应，则会得到⼀个Response

Response包含：html，json，图⽚，视频等

3、解析内容

解析html数据：正则表达式(RE模块)，第三⽅解析库如Beautifulsoup，pyquery等

解析json数据：json模块

解析⼆进制数据：以wb的⽅式写⼊⽂件

4、保存数据

数据库(MySQL，Mongdb、Redis)

⽂件

三、http协议请求与响应

Request：⽤户将⾃⼰的信息通过浏览器(socket client)发送给服务器(socket server)

Response：服务器接收请求，分析⽤户发来的请求信息，然后返回数据(返回的数据中可能包含其他链接，如：图⽚，js，css等)

ps：浏览器在接收Response后，会解析其内容来显⽰给⽤户，⽽爬⾍程序在模拟浏览器发送请求然后接收Response后，是要提取其中的有⽤数据。

四、 request

1、请求⽅式：

常见的请求⽅式：GET / POSTwell structured

2、请求的URL

url全球统⼀资源定位符，⽤来定义互联⽹上⼀个唯⼀的资源例如：⼀张图⽚、⼀个⽂件、⼀段视频都可以⽤url唯⼀确定

url编码

图⽚会被编码(看⽰例代码)

⽹页的加载过程是：

加载⼀个⽹页，通常都是先加载document⽂档，

在解析document⽂档的时候，遇到链接，则针对超链接发起下载图⽚的请求

3、请求头

User-agent：请求头中如果没有user-agent客户端配置，服务端可能将你当做⼀个⾮法⽤户host;

cookies：cookie⽤来保存登录信息

注意：⼀般做爬⾍都会加上请求头

请求头需要注意的参数：

(1)Referrer：访问源⾄哪⾥来(⼀些⼤型⽹站，会通过Referrer 做防盗链策略；所有爬⾍也要注意模拟)

(2)User-Agent：访问的浏览器(要加上否则会被当成爬⾍程序)

(3)cookie：请求头注意携带

4、请求体

请求体如果是get⽅式，请求体没有内容(get请求的请求体放在 url后⾯参数中，直接能看到)如果是post⽅式，请求体是format data ps： 1、登录窗⼝，⽂件上传等，信息都会被附加到请求体内 2、登录，输⼊错误的⽤户名密码，然后提交，就可以看到post，正确登录后页⾯通常会跳转，⽆法捕捉到post

五、响应Response

python请求并解析json数据1、响应状态码

200：代表成功

301：代表跳转

404：⽂件不存在

403：⽆权限访问

502：服务器错误

2、respone header

响应头需要注意的参数：

(1)Set-Cookie:BDSVRTM=0; path=/：可能有多个，是来告诉浏览器，把cookie保存下来

qsl4aapp是什么意思

(2)Content-Location：服务端响应头中包含Location返回浏览器之后，浏览器就会重新访问另⼀个页⾯

3、preview就是⽹页源代码

JSO数据

如⽹页html，图⽚

⼆进制数据等

php去除html标签

总结爬⾍流程：爬取--->解析--->存储，通过以上的介绍相信你对爬⾍的基本流程有了了解，更多python相关⾏业动态和学习资料，可以关注“武汉千锋”！

688IT编程网

java爬虫preview数据_从零开始带你掌握爬虫的基本流程

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

java爬虫preview数据_从零开始带你掌握爬虫的基本流程

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式