Python爬虫入门实战之猫眼电影数据抓取(实战篇)--688IT编程网

Python爬⾍⼊门实战之猫眼电影数据抓取（实战篇）

项⽬实战

静态⽹页实战

......

</pre>

我们看见URL的改变规律就是参数offset值不断偏移，每页偏移的值为10，由此我们可以编写⼀个获取每页数据函数，接收参数就是页码数：

import requests

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'

}

偏移参数，默认为0，即为第⼀页

params = {

'offset': 0

}

def get_html(page):

'''

获取⼀页html页⾯

:param page: 页数

:return: 该页html页⾯

'''

params['offset'] = page * 10

try:

response = (url, headers=headers, params=params)

if response.status_code == 200:

html =

return html

else:

return -1

except:

return None

</pre>

当我们获取到html页⾯后，就可以提取相应的电影信息了，⽐如榜单张每⼀项电影都会有的属性：电影名称，主演，上映时间，评分等信息。提取信息有多种⽅式，下⾯我们利⽤正则表达式提取电影信息：

def parse_infor(html):

'''

提取html页⾯中的电影信息

:param html: html页⾯

:return: 电影信息列表

'''

编写正则字符串规则，提取电影名，主演，上映时间，评分信息

pat = repile('<div class="movie-item-info">. ?<p. ?><a. ?>(. ?)</a></p>. ?<p. ?>(. ?)</p>.?<p. ?>(. ?)</p>. ?</div>. ?<div. ?>. ?<p. ?> <i. ?>(. ?)</i><i. ?>(. ?)</i></p>. ?</div>. ?</div>. ?</div>', re.S)

得到⼀个⼆重列表

results = re.findall(pat, html)

one_page_film = []

if results:

for result in results:

film_dict = {}

获取电影名信息

film_dict['name'] = result[0]

获取主演信息

start = result[1]

替换字符串中的 '\n' 字符，即换⾏字符

去掉字符串两边的空格，并使⽤切⽚去除字符串开头的'主演：'三个字符start = start.strip()[3:]

film_dict['start'] = start

获取上映时间信息

releasetime = result[2]

使⽤切⽚去除字符串开头的'上映时间：'五个字符

releasetime = releasetime[5:]

film_dict['releasetime'] = releasetime

获取评分信息，由于评分是有两个字符拼接的，这⾥我们提取后也需要进⾏拼接操作

left_half =result[3]

right_half = result[4]

score = left_half + right_half

film_dict['score'] = score

打印该电影信息：

print(film_dict)

将该电影信息字典存⼊⼀页电影列表中

one_page_film.append(film_dict)

return one_page_film

else:

return None

</pre>

不熟悉正则读者要好好复习下前⾯的知识，虽然正则写起来可能会⿇烦些，当时他的提取效率是最⾼的，接下来我们就可以将提取好的电影信息进⾏存储操作，这⾥我们存储为CSV⽂件：

def save_infor(one_page_film):

'''

存储提取好的电影信息

:param html: 电影信息列表

:return: None

'''

with open('top_film.csv', 'a', newline='') as f:

csv_file = csv.writer(f)

for one in one_page_film:

csv_file.writerow([one['name'], one['start'], one['releasetime'], one['score']])

</pre>

以上是获取⼀页html页⾯并提取电影信息存储⾄CSV中的过程，接下来我们构造⼗页的URL便可以完成猫眼电影TOP100榜中的所有电影信息的获取和存储了，以下是完整程序：

import requests

import re

import csv

import time

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'

}

box sizingparams = {

'offset': 0

}

def get_html(page):

'''

获取⼀页html页⾯

:param page: 页数

:return: 该页html页⾯

'''

params['offset'] = page * 10

try:

response = (url, headers=headers, params=params)

688IT编程网

Python爬虫入门实战之猫眼电影数据抓取(实战篇)

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

Python爬虫入门实战之猫眼电影数据抓取(实战篇)

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则