2020年第4期
222大数据
信息技术与信息化
基于Python 的地铁流量大数据应用研究
裴全力*  许新华* **  方婷婷*  代天宇  黄  瑾
PEI Quan-li  XU Xin-hua  FANG Ting-ting  DAI Tian-yu  HUANG Jin
摘 要              在数据大爆发的时代,对数据进行有效的分析,以及研究其应用变得至关重要。本文借助python 强大的
第三方库numpy 、pandas 处理地铁各时段、各路段的客流量数据;借助pycharts 这个第三方图形库,将数据分析的结果以可视化的方式呈现出来,更加直观地对该数据的实际应用进行研究。通过分析地铁站的客流量数据,用多样化的图形展示本城市地铁站店客流量信息,让用户直观地查看不同线路上的客流情况。为大数据信息化时代提供了高效、准确、便捷的方法,能够更好满足大数据时代的要求,方便社会诸多人的日常生活。
关键词                  python ;大数据;地铁;客流量分析
doi:10.3969/j.issn.1672-9528.2020.04.075
* 湖北师范大学计算机与信息工程学院 湖北黄石 435002**湖北师范大学教师教育学院 湖北黄石 435002
[基金项目] 本文为2019湖北师范大学年本科生科研项目“基于Python 的地铁流量大数据应用研究”(项目编号:2019134)的阶段性成果
0  引言
Python 是一种面向对象、解释型计算机程序设计语言,它具有更加简洁、优雅、开发效率高的特点,不仅支持面向过程的程序设计方法, 也支持面向对象的程序设计方法[1] 。Python 成为当下最受欢迎的数据分析工具,其之所以适合做数据分析,离不开它强大而全面的数据分析库[2]。借助python 的numpy、pandas 第三方库可以高效地实现数据预处理,借助pycharts 这个第三方图形库,以图形化的方式直观地呈现分析结果。因为这些显著优势,Python 语言给数据的应用研究提供了有力的支持。
本文运用 python 语言对地铁客流量应用进行研究,主要分为个步骤:数据获取与清洗、数据可视化、结果呈现与分析。
1 基于 Python 语言的数据预处理
数据分析是指用适当的分析方法对收集来的大量数据进行分析, 提取有用信息和形成结论,对数据加以详细研究和概括总结的过程
[3]
。在数据大量产生,并且远超过人力处理
的范围的大数据时代,python 通过第三方库有效地解决了庞大的数据处理的问题,如numpy、pandas。在将这些数据转换成适合 python 分析的数据结构之后,运用相应的工具进
行数据分析、处理、提取出数据进行可视化。
数据获取是数据分析里面的第一步,是数据分析的基础,指将需要的数据从网页爬取或从数据库中进行提取,数据清洗指对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误[4]。在本文中,我们的数据源为“阿里云天池”大数据平台中由杭州交通局提供的“杭州市地铁人流量数据”,获取数据后,紧接着我们使用numpy、pandas 进行了数据清洗,关键代码如下:
# 读取整个目录,将所有的文件合并到一个dataframe pd.set_option(‘display.max_colwidth’, -1)data_dir = ".\\天池城市地铁客流量\\Metro_train "df_list = []
for fname in os.listdir(f"{data_dir}"):
df_list.ad_csv(f"{data_dir}/{fname}",error_bad_lines=False))
df = pd.concat(df_list)
# 利用Categorical 数据类型可以降低数据存储提升计算速度
df["lineID"] = df["lineID"].astype("category")# 将日期列转换成pandas 的日期
df.set__datetime(df["time"]), inplace=True)
#删除表中任何含有NaN 的行df.dropna(axis=0, how=’any’)python怎么读csv数据
# 浏览2019-01-01的数据,以检验清洗情况df.loc[‘2019-01-01’]

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。