自动化管理
今 日 自 动 化
Automated management
Automation Today
2021.2 今日自动化 | 157
2021年第2期
2021 No.2
1 背景
互联网的快速发展,使人类社会的信息越来越多。经济的快速发展导致年轻人在刚毕业时无法购买到价格适宜且环境舒适的房屋,租房成了热门选择。目前学者对住房价格差异研究方法有两类:一类是创立特征价格模型,即对房子的各个因素进行量化考量并权重加分计算。第二类是使用GIS 技术和地统计学,对住
房价格进行一些地理规律的考量。[1]
综合以上两种方法,分区分块、
分户型和面积的研究房屋价格的影响因素。
2 数据爬取与数据清洗
Python 是当今大热一门编程语言,其拥有良好的生态,尤其是在数据处理和数据分析方面具有高效快捷的优点。面对复杂的二手房数据信息,Python 可以快速对这些数据进行爬取与清洗。
首先要进行房源基本信息的爬取以获得当前最新的数据,本文针对58同城(https ://as.58/ershoufang/pn )上的二手房进行数据爬取。网络爬虫,Python 有属于自己的库以供使用者爬取信息。该爬虫是以对58二手房信息网站进行数据爬取保存在本地文件夹中。本次数据分析爬虫总爬取的有效数据统计2300个,以下数据和图表也均为该数据所获得的结论。2.1 数据爬取
对于二手房数据的爬取,选用Requests 库和Lxml 下的Etree 库对所要爬取数据的网站发送请求加上xpath 插件对网页进行解析,最后把我们所需要的数据爬取出来放在本地的csv 或者txt 格式文件中。爬虫部分的编写选用Pycharm 环境编译。简单来说这个爬虫的工作原理就是先通过第三方库Requests 传入URL 参数(可简单理解为网页链接),对该网站的维护服务器发送请求,在得到服务器的请求之后便可以获取网页的信息,通过xpath 插件对网页进行解析再获取更精确的信息。原理如下图1所示。2.2 数据清洗
数据清洗是为了数据分析的规范化操作为了避免所爬取获得的数据部分具有重复、遗漏、错误的数据或者符号多余等。通常在数据清洗这一块,我们使用第三方库pandas 去实现,所使用的编译环境为Anaconda 。
首先需要把文件导入Anaconda 的Jupyter Notebook 中。使用Duplicated ()等方法来判断是否有重复值和删除重复值。之后再使用Dropna ()方法来删除文件中的缺少值数据记录。如果缺失情况严重应检查爬虫程序是否出现错误或者导入Jupyter Notebook 格式是否错误,否则就会影响最终数据分析的结果正确性[2]。最后应检查数据是否符合规范。数据清洗的基本流程如图2所示。数据处理完毕后应该注意数据的格式是否一致。处理后的数据如图3所示。
图2 数据清洗基本流程图
图3 数据清洗后的数据
3 数据可视化分析
数据可视化技术将数据转化成图形图表,为决策提供依据[3]。在数据清洗完成之后需要再检查数据的正确性和是否有异常值的存在,如果存在异常值需要进行数据更改或者直接删除数据,在保证数据的正确性之后便可以开始数据的可视化分析。在进行了必要的异常值处理之后,数据并没有明显的异常值,所以可以继续后续的操作。3.1 简单化归总
在抛去所有异常值、缺失值以及重复值之后,剩余的数据量为1364条数据,针对这1364条数据将进行如下的可视化操作。其中将所有信息汇总按区分类如图4所示。
基金项目:
辽宁科技大学2020年校级大学生创新创业训练计划项目(X202010146484)
[摘 要]随着互联网的高速发展已经进入大数据时代,在目前的大数据时代我们该如何获取有用的信息成为一大难题。文章以鞍山市二
手房为例,采用Python 对58同城上的二手房进行数据分析和可视化展示,来展现鞍山市二手房的信息。通过对这些二手房分析得到了一些关于鞍山市二手房价格信息的价格分析图。
[关键词]Python ;
数据可视化;爬虫[中图分类号]TP393.09 [文献标志码]A [文章编号]2095–6487(2021)02–0157–02
Python-based Data Crawling and Analysis of Second-hand Housing in Anshan City
Zhang Lu-cheng ,Tao Ye ,Cui Wen-hua
[Abstract ]With the rapid development of the Internet, we have entered the era of big data. In the current era of big data, how to obtain useful
information has become a major problem. The article takes second-hand houses in Anshan City as an example, and uses Python to analyze and visualize the second-hand houses in 58 same city to show the information of second-hand houses in Anshan City. Through the analysis of these second-hand houses, we have also obtained some price analysis charts about the price information of second-hand houses in Anshan City.
[Keywords ]Python; data visualization; crawler 基于Python的鞍山市二手房数据爬取及分析
张禄成,陶 冶,崔文华
(辽宁科技大学 计算机与软件工程学院,辽宁
鞍山 114051)
图1
网络爬虫原理图
自动化管理今 日 自 动 化
python网络爬虫书籍推荐Automated management
Automation Today
2021年第2期
2021 No.2
/万元
/m 2
图4 鞍山市二手房信息汇总图
如图4所示,在58二手房网站上爬取的鞍山市二手房收据共有7个分区,其中可能因为58
网站上的数据不太齐全,导致部分区域数据过于少,上图中包含各分区在58二手房网站上在售的区块总
面积、总金额、每平米的平均租金和数量有了概括的描述。在上图中用户可以轻松地获取所售房源概括。3.2 可视化分析
图5为鞍山市二手房的户型结构,图5统计出了目前在58二手房网站上正在出售的二手房户型,其中为了使数据看起来更加整洁可靠,将上面的户型筛选了一遍,减去了户型数量小于10户的户型即个别的特殊类型。一是为了数据的整洁性,二是为了向用户提供更加真实且大众的数据信息来源。
7006005004003002001000
2室2厅1卫
2室1厅1卫
3室2厅2卫
3室2厅1卫
1室1厅1卫
4室2厅2卫
3室1厅1卫
6室3厅3卫
4室3厅2卫
2室2厅2卫
3室3厅2卫
图5 鞍山市二手房户型分布图
图6为鞍山市二手房在各分区的房源及各区块的二手房每平米价格分布情况,其中折线为该区块的平均房价,柱状图为该区块的在售的二手房总量。由此图可大概推断一个城市的繁荣情况,房源数据多的说明聚集人口多,往往说明该区域为城市的重点经济地区,经济活动繁盛。房源数据较少的区块可能为该城市的新城区,未经历完开发,具有良好的市场潜力,如果加以政策扶持就可能成为城市的经济中心。
图7为鞍山市二手房的面积分析图,该图为一个饼状图。可以使用户清晰地看到目前在租房网站在售的二手房的面积的房源
最多且也可了解目前受欢迎的面积为多大,一般来说有市场的二手房面积一定为所在最多比例的面积,这也可侧面也显示出鞍山市的一些经济状况。通常经济越发达的地区的房价就会越高,就导致租房也得考虑到经济实惠的方面往往不会去租较大的房屋。
30-50m 230m 2以下160m 2以上
140-160m 2
120-140m 2
90-120m
2
70-90m 2
50-70m 2
图7 鞍山市二手房面积分布图
4 结束语
大数据时代的来临,数据分析逐步成为重要工具之一。在这个信息庞大的时代更加精确且快速地获取有用的数据就必不可少一些数据分析工具。Python 语言因其简单性、简洁性将会成为新时代的重要语言之一。基于Python 的爬虫来获取网络的信息,并且将以可视化图表的方式反馈给用户,把爬取的信息进行清洗、过滤,从中分析和挖掘有用的信息,充分利用大数据的优势。
参考文献
[1] 王新刚. 城市住房价格时空模型分析[D].开封:河南大学,2015.[2] 赵绿草,饶佳冬. 基于python 的二手房数据爬取及分析[J]. 电脑
知识与技术,2019(7):1-3.
[3] 曾悠. 大数据时代背景下的数据可视化概念研究[D].杭州:浙江
大学,2014.
铁东铁西立山海城台安千山岫岩
图6 鞍山市各区块二手房平均房价及数量
(上接第112页)
案后,借助计算机进行实时性系统的仿真模拟,逐步优化,确保整个仓库物流模式的最优化。
3 结束语
总而言之,在现代物流行业全面发展的时代背景下,自动化立体仓库系统的构建是在提高管理专业度的基础上,打造更加完整的运行体系,为高效化管理工作的进步提供保障,提高系统运
行的综合水平,搭建数字化管理平台,为现代物流可持续健康发展奠定坚实基础。
参考文献
[1] 曹清龙.现代物流与自动化立体仓库系统的构成浅析[J].科技经
济市场,2018(2):5-6.
[2] 彭太刚.面向现代物流的自动化立体仓库控制系统的设计分析[J].
科技与创新,2018(1):96-97.
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论