基于python爬虫的数据获取与可视化的教学实践研究
作者:陈星 宣震
来源:《中国信息技术教育》2020年第17期
摘要:2019粤教版信息技术必修1结合《5.2数据的采集》《5.4数据的可视化分析》的内容,采用Python编写网络爬虫与数据可视化工具的案例,并使用程序与人行为的类比逐步深入任务,通过探究学习方式让学生体验爬虫获取网页数据的完整流程,对文本数据可视化分析并得出结论,培养了学生的计算思维,让学生体会到数据保护的意义,提升了学生社会责任感。
关键词:Python爬虫;数据采集与可视化分析;学科教学
中图分类号:G434 文献标识码:A 论文编号:1674-2117(2020)17-0000-00
伴随着移动互联网、物联网技术的迅猛发展,数据挖掘与分析已经成为重要的研究领域。因此,《普通高中信息技术课程标准(2017年版)》在“数据处理可视化表达”这一内
容下突出数据处理的基本原理,聚焦技术性工具在数据处理中的功能,强调让学生通过典型案例应用,了解数据采集、分析和可视化表达的基本方法。[1]那如何通过典型案例了解数据获取与可视化分析的过程呢。笔者从任务分解的视角,有层次地引导学生自主探索数据采集与可视化分析的实际应用。
设计思路与任务阐明
建构主义认为,学习环境中的情境必须有利于学习者对所学内容的意义建构,且学习能在和现实情况基本一致或相类似的情境中发生。[2]同时,宅还强调学生的学习活动应与任务或问题相结合,以探索问题或完成任务的方式来引导和维持学习兴趣和动机,使学生完成主动的意义建构。
例如,笔者创设了这样一个真实的情境:假如你是一名导演,你导演的电影上映了一段时间,关于这部作品,你会关注哪些方面?向学生展示豆瓣网页中电影《我和我的祖国》短评以及利用爬虫获取的短评文本分析生成关键词的词云图、柱状图、饼图、雷达图、圈图(如上页图1),提问:“大家能从图中获取哪些信息?”由此让学生初步了解数据获取与分析的作用,并阐明利用Python编写爬虫程序获取豆瓣电影短评文本数据、进行数
据分析展示并得出结论的主要学习任务。
任务知识储备与分组
通过前期的学生学情分析和教学内容分析可知,本次教学内容难度较大,学生需要熟悉Python基础语法知识、HTML基础知识以及Python IDLE操作环境。学生两人为一组,分工合作完成此次学习内容。
任务分析
教师提出应如何利用计算机程序自动获取豆瓣电影短评数据并进行分析,以图表的形式呈现分析结果,引导学生将这一过程分解为五个子过程,并针引导学生思考怎样完成这五个过程,形成实施过程和人的动作的对比,使得学生能够形象地理解数据获取的基本过程(如表1)。由此进一步引导学生思考计算机程序如何获取数据的问题。
任务驱动的学习探索
1.环节一:Python爬虫基础新知
python怎么读csv数据
学生观看视频了解爬虫的新知。网络爬虫通常可以分为两类:通用爬虫和聚焦爬虫。通用爬虫是根据关键词爬取整个互联网的程序,常见的有谷歌、百度搜索引擎爬虫,而本次所用的Python爬虫是一种聚焦爬虫,是定向抓取与某一特定主题内容相关的网页资源的程序。
2.环节二:程序行为的形象化
由任务分析中五个过程与人的动作的对比再次深入,引导学生认知计算机程序是如何完成这个五个过程的(如表2)。
3.环节三:python爬虫基础库准备
爬虫是如何完成链接的访问和网页数据分析的呢?针对这一问题,教师讲授python爬虫程序实践需要具备两个“利器”:Requests库和BeautifulSoup库。
Requests是公认的非常好的Python第三方爬虫库,利用它可以很方便地爬取一个网页。BeautifulSoup库是灵活又方便的网页解析库,处理效率高,利用它不用编写正则表达式即可方便地实现网页信息的提取,而结合Requests和BeautifulSoup库可以实现只抓取需
要的网页信息。获得一个网页最简单的方法就是利用(url),(url)构造一个向服务器请求资源的Requests对象。(url),即返回的內容用一个变量r来表示,这个r是Response对象,包含从服务器返回的所有相关资源。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论