python爬虫课程标准--688IT编程网

“python爬虫”课程标准

一、课程性质

本课程是大数据技术与应用专业的一门专业核心课（技术技能课），旨在对学生的程序设计思想和技能进行强化，培养学生利用主流scrapy框架进行爬虫项目的设计和开发的能力。

先导课程：web应用开发技术、python基础、数据库基础

建议学时：

二、设计思路

本课程依据网页爬虫开发岗位的PGSD能力要求而设置，主要工作时根据需求进行数据采集，获得有效数据，课程对应的职业能力分析具体如表1-1所示。

表1-1 “python爬虫”课程对应PGSD能力要求

世宝的全集易语言教程

能力类别	编号	内容
职业能力	python递归法求n的阶乘 P-A1.1	明确爬虫的目的、主题
	P-A1.2	明确爬虫的数据，含字段、时间范围等
	P-A1.3	明确爬虫的步骤、工具
	P-A2.1	能够使用ullib实现网页下载
	P-A2.2	能够使用正则表达式获取网页数据
	P-A2.3	能够使用beautifulsoup工具选择数据
	P-A2.4	能够使用xpath、css选择数据
	P-A2.5	能够使用scrapy编写网页爬虫程序
	P-A2.6	能够使用item、pipeline实现数据序列化与存储
	P-A2.7	能够使用scrapy实现网页递归爬取
	P-A2.8	能够进行网站爬虫程序综合开发
通用能力	G-A1	具备信息收集和信息处理能力
	G-A2	具备结构化思维和数据化思维能力
	G-A3	具备一定的互联网和网页知识
	G-A4	具备一定的数学素养
	G-A5	具备良好的语言表达能力和沟通能力
	G-A6	对数据具有敏感性，有一定的设计和创新能力
	G-A7	具有健康的体魄和积极的心态，具有一定的抗压能力
社会能力	S-A1	具备法律意识，能自觉遵守相关法律、行业规范和企业规章制度，保守企业商业机密
	S-A2	遵守互联网安全意识和伦理道德，能防范信息泄露，保护数据安全
	S-A3	具备团队意识，能有效地与其他部门沟通
	S-A4	具有环境适应能力，耐心细致的工作态度，精益求精的工匠精神

发展能力	D-A1	具备互联网思维能力和数据产品能力
	D-A2	具备创新意识，并在工作或创业中灵活应用
	D-A3	具备自学能力，能适应行业的不断变革发展

本课程以爬虫工程师岗位的基本要求为指导，依据该岗位真实业务内容与流程选取课程内容、构建学习单元，将目前爬虫程序必备功能组件如网页数据下载、数据分析、数据存储、网页地柜爬取等技术作为项目中的系列任务。课程内容编排符合循序渐进的认知规律，培养学生的网页爬虫实际应用能力。

三、课程目标

本课程内容涵盖了学生在“基本理论”、“基本技能”和“实战项目”三个层次的培养。以网页爬虫开发岗位必备的开发技能为重点并具备相应的理论基础的同时，注意实际工作中业务场景，从而培养学生的数据爬取能力。

1　掌握爬虫程序设计理念；

2　掌握数据提取与存储思想；

3　掌握scrapy爬虫框架设计思想；

4　熟练掌握ullib网页下载方法；

5　熟练掌握正则表达式选取数据的规则；

6　熟练掌握beautifulsoup工具选取数据的方法；

7　熟练掌握xpath、css选择数据的方法；

8　熟练掌握scrapy网页爬取的工作流程；

9　熟练掌握scrapy中item、pipeline数据的序列化输出方法；

10　熟练掌握scrapy中spider的网页递归爬取技术；

11　熟练掌握scrapy中间件的使用方法；

12　能够完成真实业务逻辑向代码的转化；

13　能够独立分析解决技术问题；

14　自学能力强，能够快速准确地查参考资料；

15　能够安好规范编写技术文档；

16　沟通能力强，能够与小组其他人通力合作

四、课程内容与要求

本课程内容要求如表1-2所示：

表1-2 “python爬虫”课程内容与要求

序号	学习单元	能力点	知识、技能、素质要求	学习成果	建议学时
1	爬虫概述		●能够初步了解爬虫的概念，了解爬虫的历史、发展、功能等 ●了解现有的爬虫工具，使用爬虫工具爬取一次数据 ●具备信息收集和信息处理能力 ●具备自学能力，能适应行业的不断变革发展 ●具备一定的设计素养	爬虫工具的使用，简单的数据爬取项目	4
2	前置技能准备		●python语言回顾 ●web开发基础回顾 ●具备一定的互联网和网页知识	使用python编写一个程序，使用web开发一个网页	8
3vbs输出语句	ullib实现网站下载		●web技术课程搭建前端开发环境 ●搭建后端静态网页 ●利用urllib下载后端网页 ●编写程序实现编码（GBK,UTF-8）的自动识别与转换 ●存储网页到文件或数据库	能够通过ullib网页下载函数方法下载网页，实现编码的转换	6
4	使用正则表达式获取网页数据		●搭建前端开发环境 ●搭建后端静态网页 ●利用urllib下载后端网页 ●使用正则表达式匹配并提取网页数据	能够根据功能组件的不同实现需求，使用正则表达式匹配并提取网页中的数据	6
5	使用beautifulsoup工具选择数据		●搭建前端开发环境 ●搭建后端静态网页 ●利用urllib下载后端网页 ●使用beautifulsoup提取网页的数据 ●存储提取的数据	能够使用beautifulsoup工具选择数据，掌握find_all等常用方法	6
6	使用xpath、css选择数据登录的代码怎么写		●搭建前端开发环境 ●搭建后端静态网页 ●利用urllib下载后端网页 ●使用xpath、css提取网页的数据 ●存储提取的数据	使用xpath、css选择复杂的数据	6
7	使用scrapy编写网页爬虫程序		●搭建scrapy开发环境 ●搭建web后台网页 ●使用scrapy爬取网页文件 ●使用xpath、css获取特征数据	能够使用scrapy网页爬取的工作流程爬取单个网页的某几个特征数据	10
8	使用item、pipeline实现数据序列化与存储		●搭建scrapy开发环境 ●搭建web后台网页 ●使用scrapy爬取网页文件 ●使用item、pipeline提取与存储数据	能够使用scrapy中pipeline进行数据提取与数据存储	8
9	使用scrapy实现网页递归爬取		●搭建scrapy开发环境 ●搭建web后台众多关联网页 ●使用scrapy爬取多层嵌套与关联的网页文件 ●使用item、pipeline提取与存储数据	能够使用scrapy中spider的网页递归爬取循环，实现数据的提取与存储	10

五、课程考核方案

本课程考核方案如表1-3所示。

表1-3 “python爬虫”课程考核方式

评价内容	评价标准	评价类型	占比	评价方式	评价主体
爬虫概述	能使用爬虫工具爬取数据	作品	10%	终结性评价	教师评价+学习小组组长
前置技能准备	能写python程序和web网页	作品	10%	终结性评价	教师评价+学生自评
urllib实现网站下载	能使用urllib下载网站	作品	10%	终结性评价	教师评价+学生自评
使用正则表达式获取网页数据	能使用正则表达式获取网页数据	作品	10%	终结性评价	教师评价+学生自评
使用beautifulsoup工具选择数据	能使用beautifulsoup工具选择数据	作品	10%	终结性评价	教师评价+学生自评
使用xpath、css选择数据	能使用xpath、css选择数据	作品	10%	终结性评价 python教材下载	教师评价+学生自评
使用scrapy编写网页爬虫程序	能使用scrapy编写网页爬虫程序	作品	15%	终结性评价	教师评价+学生自评
使用item、pipeline实现数据序列化与存储	能使用item、pipeline实现数据序列化与存储	作品	10%	终结性评价	教师评价+学生自评
使用scrapy实现网页递归爬取	能使用scrapy实现网页递归爬取	作品	15%	终结性评价	教师评价+学习小组组长

六、实施建议

1.教材的选择与编写

依据本书中的课程标准选择与编写教材。教材应充分体现工学结合、任务驱动、项目教学的课程设计思想，要体现通用性、实用性、先进性，项目活动载体的选择要科学。

优先选用高职教育国家规划教材、省级规划教材、数据科学与大数据技术专业系列规划教材。

2.教学建议

1　教学方法多样化，教学内容真实化。建议教师在家偶尔过程中通过案例激发学生思考，基于真实的第三方数据和抓取的外部数据来布置任务，驱动教学，从而提高学生的学习积极性，提高学生实操能力。

2　教学手段现代化。利用多媒体、网络平台、信息系统、视频录像等现代化手段，强化实际操作技能的训练，提高课堂教学效率。

3　教学组织团队化。运营管理实践工作都是以团队形式完成的，教学过程中同样采取分组方式来组织实践教学。每项实践活动都是一个完整的工作过程，因此都可以成立类似于企业的一个工作小组；每个小组由5~6人组成，小组工作要按企业化运作，实行组长负责制；并在班级或年级内开展小组竞赛，培养学生的团队协作能力和职业意识，提高学生的管理能力。

688IT编程网

python爬虫课程标准

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

python爬虫课程标准

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则