Python网络爬虫实习报告
一、选题背景 - 2 -
python网络爬虫书籍推荐二、爬虫原理ﻩ— 2 -
三、爬虫历史与分类 — 2 —
四、常用爬虫框架比较ﻩ- 5 -
五、数据爬取实战(豆瓣网爬取电影数据) — 6 -
2爬取数据 — 7 -
3数据整理、转换ﻩ- 10 -
4数据保存、展示ﻩ- 12 -
5技术难点关键点ﻩ— 12 —
六、总结 - 14 —
一、
选题背景
选题背景
二、爬虫原理
三、爬虫历史与分类
四、常用爬虫框架比较
Scrapy框架:Scrapy框架就是一套比较成熟得Python爬虫框架,就是使用Python开发得快速、高层次得信息爬取框架,可以高效得爬取web页面并提取出结构化数据。Scrapy应用范围很广,爬虫开发、数据挖掘、数据监测、自动化测试等.
Crawley框架:Crawley也就是Python开发出得爬虫框架,该框架致力于改变人们从互联网中提取数据得方式。
Portia框架:Portia框架就是一款允许没有任何编程基础得用户可视化地爬取网页得爬虫框架。
newspaper框架:newspaper框架就是一个用来提取新闻、文章以及内容分析得Python爬虫框架.
Python-goose框架:Python-goose框架可提取得信息包括:〈1〉文章主体内容;<2>文章主要图片;<3>文章中嵌入得任heYoutube/Vimeo视频;<4〉元描述;〈5〉元标签
五、数据爬取实战(豆瓣网爬取电影数据)
1分析网页
# 获取html源代码
def __getHtml():
data = []ﻫ pageNum = 1
pageSize = 0
try:ﻫ while (pageSize 〈= 125):
# headers = {’User—Agent':’Mozilla/5、0 (Windows NT 6、1) AppleWebKit/537、11 (KHTML, like Gecko) Chrome/23、0、1271、64 Safari/537、11’,
# ’Referer’:None #注意如果依然不能抓取得话,这里可以设置抓取网站得host
# }ﻫ # opener = urllib、request、build_opener()
# opener、addheaders = [headers]ﻫ url = "” + str(pageSize) + ”&filter=" + str(pageNum)
# data['html%s’ % i ]=urllib、request、urlopen(url)、read()、decode("utf—8")ﻫ data、append(urllib、request、urlopen(url)、read()、decode(”utf-8"))
pageSize += 25ﻫ pageNum += 1ﻫ print(pageSize, pageNum)
except Exception as e:
raise e
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论