python3网络爬虫开发实战(崔庆才著)第二章--688IT编程网

python请求并解析json数据

python3⽹络爬⾍开发实战（崔庆才著）第⼆章

2、爬⾍基础

2.1 HTTP基本原理

2.1.1 URI URL URN

URI 全称Uniform Resource Identifier，即统⼀资源标志符

URL 全称Uniform Resource Locator ，即统⼀资源定位符

URN 全称Uniform Resource Name , 即统⼀资源名称

URI包含URL和URN

2.1.2 超⽂本

英⽂名称：hypertext 。包含有标签的⽹络源代码

2.1.3 URL的开头会有http或https

HTTP 全称Hyper Text Transfer Protocol ，中⽂名超⽂本传输协议。从⽹络传输超⽂本数据到本地浏览器的传送协议，⾼效、准确。

⼴泛使⽤的是HTTP1.1版本

HTTPS 全称Hyper Text Transfer Protocol over Secure Socket Layer，以安全为⽬标的HTTP通道。是HTTP的安全版。在HTTP 下加⼊SSL层。阐述的内容通过SSL传送。

建⽴信息安全通道来保证数据传输的安全

确认⽹站的真实性，可以通过CA机构颁发的安全签章查询。（12306⽹站使⽤的https，其CA证书是由中国铁道部⾃⾏签发的。

）

2.1.4 HTTP请求过程

们在浏览器中输⼊⼀个URL，回车之后便会在浏览器中观察到页⾯内容。实际上，这个过程是浏览器向⽹站所在的服务器发送了⼀个请求，⽹站服务器接收到这个请求后进⾏处理和解析，然后返回对应的响应，接着传回给浏览器。响应⾥包含了页⾯的源代码等内容，浏览器再对其进⾏解析，便将⽹页呈现了出来。

2.1.5 请求

由棵树段向服务端发出，可分为4部分内容：请求⽅法（Request Method）、请求⽹址（Request URL）、请求头（Request Headers）、请求体（Request Body）

请求⽅法（Request Method）

⽅法描述

GET请求页⾯，并返回页⾯内容（请求参数包含在URL⾥⾯，提交的数据最多1024字节）

HEAD类似于GET请求，返回的响应⾥⾯没有具体内容，⽤于获取报头

vipaccess安卓版最新POST⼤多⽤于提交表单或上传⽂件，数据包含在请求体中（不限制上产数据的⼤⼩）

PUT⽤从客户端向服务器传送的数据取代指定⽂档中的内容

DELETE请求服务器删除指定的页⾯

⽅法描述

CONNECT把服务器当作跳板，让服务器代替客户端访问其他⽹站

OPTIONS允许客户端查看服务器的性能

TEACE回显服务器收到的请求，主要⽤于测试或诊断

请求⽹址

即统⼀资源定位符 URL，可以唯⼀确定请求的资源

请求头

⽤来说明服务器要是⽤的附加信息，⽐较重要的信息有Cookie、Referer、User-Agent等

java基础入门传智播客电子版

Accept：请求报头域，⽤于指客户端可接收那些类型的信息

Accept-Language：指定客户端可接受的语⾔类型

Accept-Encoding：指定客户端可接受的内容编码

Host：⽤于指定请求资源的主机IP和端⼝号，内容为请求URL的原始服务器或⽹关的位置。从HTTP1.1版本开始，必须包含

Cookie：⽹站为了辨别⽤户进⾏会话跟踪⽽存储在⽤户本地的数据。只要功能是维持当前访问会话。（记住密码）

Referer：标识请求来源页⾯，可以做来源统计或防盗链处理等

User-Agent：简称UA，特殊的字符串头，服务器识别客户使⽤的操作系统及版本、浏览器等。在做爬⾍时加上这些信息可以伪装成浏览器访问。

Content-Type：也叫互联⽹媒体类型（Internet Media Type）或者MIME类型。表⽰媒体类型信息。例如：text、html代表HTML格式，image、gif代表GIF 图⽚，application、json代表JSON类型。更多参考tool.oschina/commons。

请求体

⼀般承载的内容是POST请求中的表单数据，⽽对于GET请求，请求体为空

2.1.6 响应

由服务端返回给客户端，分为三部分：响应状态码（Response Status Code）、响应头（Response Headers），响应体（rESPONSE Body）

响应状态码

响应头

oracle收费吗

包含了服务器对请求的应答信息

Date：响应产⽣的时间

Last-Modified：最后的修改时间

Content-Encoding：相应内容的编码

Server：服务器的信息，例如：名称、版本号等

Content-Type：⽂档类型，指定返回的数据类型

Set-Cookie：设置Cookie。

Expires：响应过期的时间。再次访问时可以直接从缓存中加在，降低服务器负载，缩短加载时间

响应体

最重要的是内容。响应的正⽂数据都在响应体中，⽐如请求⽹页时，响应体就是⽹页的HTML代码；请求⼀张图⽚时，响应体就是图⽚的⼆进制数据。

2.2 ⽹页基础

2.2.1 ⽹页的组成

⽹页分为三⼤部分——HTML（⾻架）、CSS（⽪肤）和JavaScript（肌⾁）。

HTML

⽤来描述⽹页的⼀种语⾔，全称是Hyper Text Markup Language，即超⽂本标记语⾔。⽹页包括⽂字、按钮、图⽚、视频资料等元素，其基础框架就是HTML。不同类型的⽂字通过不同的标签表⽰，如图⽚⽤img标签，视屏⽤video标签，段落⽤p标签。布局⽤div 标签嵌套组合⽽成

CSS

全称：Cascading Style Sheets ，即层叠样式表。“层叠”是指能依据层叠顺序处理多个样式⽂件。“样式”是指⽹页中⽂字⼤⼩、颜⾊、元素间距、排列等格式。⽬前唯⼀的⽹页页⾯排版样式标准。

后缀为css，⽤link标签引⽤

JaveScript

简称JS，是⼀种脚本语⾔。交互动画效果，如下载进度条、提⽰框。轮播图等。

后缀为js，通过script标签引⽤

2.2.2 ⽹页的结构

< !DOCTYPE html>

php聊天室可以语音源码< html>

< head>

< meta charset="UTF-8">

</ head>

<body>

<div class ＝"wrapper"〉

<h2 class =” title ”> Hello World</h2>

</div>

公司搭建

</ div>

</ body >

</ html>

这就是⼀个最简单的HTML实例，开头⽤DOCTYPE定义了⽂档类型，其次最外层是html标签，最后还有对应的结束标签来表⽰闭合，其内部是head标签和body标签，分别代表⽹页头和⽹页体，它们也需要结束标签。head标签内定义了⼀些页⾯的置和引⽤，如：

它指定了⽹页的编码为UTF-8。title标签则定义了⽹页的标题，会显⽰在⽹页的选项卡中，不会显⽰在正⽂中。body标签内则是在⽹页正⽂中显⽰的内容。div标签定义了⽹页中的区块，它的id是container，这是⼀个⾮常常⽤的属性，且id的内容在⽹页中是唯⼀的，我们可以通过它来获取这个区块。然后在此区块内⼜有⼀个div标签，它的class为wrapper，这也是⼀个⾮常常⽤的属性，经常与css配合使⽤来设定样式。然后此区块内部⼜有⼀个h2标签，这代表⼀个⼆级标题。另外，还有⼀个p标签，这代表⼀个段落。在这两者中直接写⼊相应的内容即可在⽹页中呈现出来，它们也有各⾃的class属性。

2.2.3 节点数及节点间的关系

标签定义的内容都是节点，构成⼀个HTML DOM树。

DOM是W3C（万维⽹联盟）的标准，英⽂全称为Document Object Model ，即⽂档对象模型。定义了访问HTML和XML⽂档的标准。W3C⽂档对象模型（DOM）是中⽴于平台和语⾔的接⼝，允许程序和脚本动态地访问和更新⽂档的内容、结构和样式。

树中的所有节点都可以通过JavaScript访问，节点元素都可被修改、创建或删除。节点彼此间拥有层级关系。通常⽤⽗（parent）、⼦（child）和兄弟（siblig）等术语描述这些关系。

2.2.4 选择器

688IT编程网

python3网络爬虫开发实战(崔庆才著)第二章

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

python3网络爬虫开发实战(崔庆才著)第二章

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式