2020.08
随着时代的发展,人们读书的需求日益增加,2019年我国阅读用户累计超越7.4亿人次,在如此繁荣的大数据背后,单靠从前的人工数据统计早已不能达到如今互联网时代的需求,针对此类需求,研究设计并实现了基于Python 和Hadoop 的图书馆实时监控系统,系统实现了实施监控每日不同时段入馆人数,借出书籍,并且通过大数据技术,分析每日热搜书籍、高分书籍、年度入馆人流量、借出书籍类型的可视化界面。
1系统功能概述
系统功能主要为图书馆不同数据的可视化,具体功
能概述如图1所示。
2
主要技术实现方法
2.1爬取数据
爬取数据使用了目前最为流行的Python 语言,Python 语言具有如下的优势:
(1)Python 语言易于读写,语法简单。
(2)Python 是免费开源的,有利于消减整个项目的支出。
(3)Python 兼容中文平台,不会遇到使用其他语言
时常会遇到的困扰。
(4)Python 支持面向过程,在面向对象编程中,使
用基于数据和函数的对象。尽管对象十分复杂Python 却保持简洁。(5)Python 社区有大量的Python 库,对编程提供了大量帮助。
运用到了Python 中的Lxml 库,Lxml 库是基于libxml2的XML 解析库的Python 封装,解析速度明显快于目前流行的BeautifulSoup,使用Lxml 库可以轻松处
理XML 和HTML 文件,并且提供简单的转换方法来将数据转换为Python 数据类型。
具体爬取步骤如下:
socket编程视频教程(1)通过requests 库获取HTML 文档。(2)通过Lxml 库修正HTML 文档。(3)读取HTML 文件。(4)解析HTML 文档。
python教材下载(5)使用Xpath 语法提取有效信息。爬虫过程如图2爬虫流程图所示。
基于Python 和Hadoop 的图书馆实时监控系统设计与实现
居梓俊,邓居旺,孙建振,李东阳,黄翀鹏
(无锡职业技术学院,江苏无锡214000)
摘
power是什么意思手机开不开机要:随着大数据时代的发展,利用信息化技术实时监控学校图书馆的资源,以让人掌控学校图书馆情况是研究的主要目的。研究方法是通过Python 爬虫技术,利用Lxml 库爬取图书馆中的信息,接着将爬取出来的信息进行数据清洗,取出有效信息,放入Hadoop 平台进行存放,最后再利用Flask 框架以及数据分析及可视化技术将信息以一种直观可视的方式展现在网页上。关键词:大数据;Python 语言;Hadoop 平台;Flask 框架;可视化
at interval
图1功能模块图
图2爬虫流程图
基于Python 和Hadoop 的图书馆实时监控系统
入馆人数馆藏书籍
不同
时段入馆人数
span教程视频年度入馆流量
30天书籍类型
热搜书籍
高分书籍
今日借出书籍
书籍评价
年度借出书籍
初始化URL 队列
判断终止条件(URL 为空)
退出程序
下载URL 指向的网页
通过LXML 解析网页
html5编辑器安卓版下载使用Xpath 提取信息
新URL 入队URL 队列
20
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论