python爬取豆瓣top250电影信息成功代码--688IT编程网

python爬取⾖瓣top250电影信息成功代码

import requests

from lxml import etree

import pandas as pd电影源代码人物介绍

import os

MOVIES =[]

IMGURLS =[]

def get_html(url):

headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}

try:

html = (url,headers = headers)

if html.status_code ==200:

print('成功获取源代码')

except Exception as e:

print('获取源代码失败:%s'% e)

def parse_html(html):

movies =[]

imgurls =[]

html = etree.HTML(html)

lis = html.xpath("//ol[@class = 'grid_view']/li")

for li in lis:

name = li.xpath(".//a/span[@class='title'][1]/text()")[0]

director_actor ="".join(li.xpath(".//div[@class='bd']/p/text()[1]")[0].replace(' ','').replace('\n','').replace('/','').split()) info ="".join(li.xpath(".//div[@class='bd']/p/text()[2]")[0].replace(' ','').replace('\n','').split())

rating_score = li.xpath(".//span[@class='rating_num']/text()")[0]

rating_num = li.xpath(".//div[@class='star']/span[4]/text()")[0]

introduce = li.xpath(".//p[@class='quote']/span/text()")

if introduce:

movie ={'name': name,'director_actor': director_actor,'info': info,'rating_score': rating_score, 'rating_num': rating_num,'introduce': introduce[0]}

else:

movie ={'name': name,'director_actor': director_actor,'info': info,'rating_score': rating_score, 'rating_num': rating_num,'introduce':None}

imgurl = li.xpath(".//img/@src")[0]

movies.append(movie)

imgurls.append(imgurl)

return movies,imgurls

def download_img(url,movie):

if'movieposter'in os.listdir(r'G:\爬⾍数据'):

pass

else:

os.mkdir('movieposter')

os.chdir(r'G:\爬⾍数据\movieposter')

img = (url).content

with open(movie['name']+'.jpg','wb')as f:

print('正在下载： %s'% url)

f.write(img)

if __name__ =='__main__':

for i in range(10):

url ='movie.douban/top250?start='+str(i *25)+'&filter='

html = get_html(url)

movies = parse_html(html)[0]

imgurls = parse_html(html)[1]

for i in range(250):

download_img(IMGURLS[i],MOVIES[i])

os.chdir(r'G:\爬⾍数据')

moviedata = pd.DataFrame(MOVIES)

<_csv('movie.csv')

print('电影信息成功保存到本地')

688IT编程网

python爬取豆瓣top250电影信息成功代码

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

python爬取豆瓣top250电影信息成功代码

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式