总762期第二十八期2021年10月
河南科技
Journal of Henan Science and Technology 信息技术
基于Hadoop的购物行为分析系统的设计与实现刘 海 宋阳阳 王 宝 孙瑞霜 苏云飞 于改露
(安阳师范学院,河南 安阳 455000)
摘 要:随着信息技术的高速发展,网络购物已经走进千家万户。网络购物便捷化的方式使得人们可以随时随地选购自己喜欢的物品和服务。在此背景下,网络购物行为数据呈现爆发式增长。本文通过使用Hadoop 大数据处理技术对网络购物行为数据进行了系统性分析,并使用SSM框架技术对大数据分析的结果进行了可视化展示。系统的实现将为网购卖家提供更加具有实际指导意义的进货需求服务和客服服务,也可以为买家提供较为精准的购物参考服务,以帮助买家到理想商品,提高购物效率。
关键词:Hadoop技术;SSM框架;购物行为;大数据技术
中图分类号:F713.55;TP311.13 文献标识码:A 文章编号:1003-5168(2021)28-0025-03 Design and Implementation of Shopping Behavior Analysis System Based
on Hadoop
LIU Hai SONG Yangyang WANG Bao SUN Ruishuang SU Yunfei YU Gailu
(Anyang Normal University, Anyang Henan 455000)
Abstract: With the rapid development of information technology, online shopping has entered thousands of households. The convenient way of online shopping allows people to buy their favorite items and services anytime and anywhere. In this context, online shopping behavior data has shown explosive growth. This paper uses the Hadoop big data processing technology in the big data technology to systematically analyze the online shopping behavior data, and uses the SSM framework technology to visualize the results of the big data analysis. The implementation of the system will provide online shopping sellers with more practical guidance for purchase demand services and customer service. At the same time, it can also provide buyers with more accurate shopping reference services to help buyers find ideal products and improve shopping efficiency.
Keywords: Hadoop technology;SSM framework;shopping behavior;big data technology
随着网络信息技术越来越成熟,网络购物逐渐改变了人们的生活。如今的网络购物可以让人们实现足不
出户,动动手指,产品就会随着物流及时送到消费者的手中[1]。日常生活中所需要的衣服、食品、电器甚至汽车等商品,都可以通过互联网来进行购买,因此互联网购物给人们的生活带来了极大的便利。在网购领域,目前淘宝、京东、拼多多等购物平台销售额逐年增长,已在市场中占据主导地位。尤其是京东每年推出的“618”购物节和淘宝推出的“双11”购物节,当天销售额更是成为全民关注的焦点。“双11”购物节诞生以来,淘宝和天猫销售额2009年为0.52亿元,到2020年时已经达到了4 982亿元[2]。在此背景下,网络购物行为数据量迅速增长,数据的增多给数据处理带来了挑战。如何快速高效地处理购物行为数据,并从中提取出有价值的信息,成为近年来的研究热点。笔者将对网络购物行为大数据处理与分析系统的设计与实现过程进行详述。
1 系统需求分析
对于数据分析,首要的工作是确定数据集的来源。本系统的数据集全部来自天池大数据众智平台( tianchi.aliyun/),通过注册申请即可得到公开的淘宝用户行为数据集。该数据集中约有100万条用户行为信
收稿日期:2021-09-04
基金项目:安阳师范学院2021年大学生创新创业训练项目(202110479162);安阳市科技计划(软科学)项目(2022C02ZF023);安阳市科技攻关项目“不确定空间下基于增强智能的过程控制关键技术研
究”。
作者简介:刘海(1990—),男,硕士,助教,研究方向:AIoT、大数据处理框架技术。
息数据,每一条数据内容包括用户ID、商品ID、商品类目ID、行为类型和时间戳等信息。数据集中包含商品类目数量9 439个,用户数量987 994个,商品数量4 162 024个,所有行为数量之和高达1亿个。面对如此庞大的数据集,传统的MySQL或者Oracle数据库已经不足以支撑数据的分析和查询操作,而大数据技术中的Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)数据存储技术是专门针对大量数据而设计的。HDFS的高可靠性、高获得性和分布式等特点为庞大的数据集存储提供了保障,完全可以满足数据存储的需求。数据存储完毕之后,它可按照功能需求对数据进行系统性的处理和分析。目前,市场上的大数据分析工具较多。Hadoop 作为出现较早的典型开源分布式计算平台,因其可以运行在Linux平台上,且具有可靠性、可扩展性、容错性、低成本和支持多种编程语言等优点,被广泛应用于各种大数据处理的场景。百度、网易、华为、中国移动及淘宝等企业都用Hadoop处理大量的数据信息[3],再加上Hadoop 与HDFS的完美兼容性,完全可以满足数据处理与分析的需求。考虑到前端的数据可视化SSM技术需要频繁地访问数据分析的结果,将数据分析结果存储到MySQL数据库中是比较合理的一种方案。
通过对数据集进行查看可知,每一条行为数据主要包含用户ID、商品ID、商品类目ID、行为类型和时间
戳5个字段。其中,行为类型字段包括点击、购买、加购及喜欢4种属性。通过分析消费者的行为类型占比,可以满足各店家调整营销策略的需求;通过分析一天中各个时间段的购物人数,可以满足卖家了解消费者购物时间的需求;通过分析每日的购物人数,可以满足卖家了解消费者购物时间倾向的需求;通过分析商品数量排名,可以满足卖家了解消费者商品喜好的需求;通过分析商品类目排名,可以满足商家及时调整商品营销策略以适应消费者购物导向的需求。
2 系统可行性分析
2.1 技术可行性
本系统所有的操作都计划在Linux操作系统下实现。Linux操作系统操作命令简单,较易上手。整个大数据技术环境的搭建,包括JDK、Hadoop、Sqoop和MySQL数据库也都计划在Linux系统上完成。Linux与大数据技术的兼容性良好,将使整个搭建过程更具简洁性和易操作性。对于大数据分析结果的数据可视化,本系统计划使用易学易用的SSM框架技术实现,且前端与后端之间通过MySQL数据库实现分离。综上所述,本系统在技术层面完全可行。
2.2 操作可行性
本平台计划采用交互性较强的Web界面,操作简单、直观,对使用者没有太多的技术要求[4]。用户
使用系统之前不需要经过专业的培训指导,并且系统对用户的计算机专业素养要求也不高,只要具备日常的上网能力和一些基本的计算机操作常识,就可以理解并且熟练地使用系统。综上所述,本系统在操作层面完全可行。
2.3 经济可行性
本系统所计划使用的开发工具都是开源的,数据集全部来自天池大数据众智平台,通过注册申请可以免费得到。本系统计划由团队成员独立完成,遇到难以解决的问题一般通过互联网查询即可解决,没有产生其他额外费用。此外,本系统面向的用户也极其广泛,无论是商家还是消费者,应用价值都颇高。综上所述,本系统在经济层面也完全可行。
3 系统设计与实现ssm框架实现登录功能
3.1 数据处理流程设计
在搭建好大数据系统环境的基础上,按照大数据的数据处理流程,需要先将申请下载好的原始淘宝用户行为数据集进行筛选,筛选后的数据上传到分布式文件存储系统HDFS中,而后在数据仓库Hive中进行数据分析。Hive是Hadoop的一个数据仓储工具,可将结构化数据文件映射为数据库表并存储到HDFS上,可把SQL语句转换为MapReduce程序运行[5]。数据分析完毕后,因为结果数据一般不大,因此
可将分析结果数据存储到MySQL数据库中,使数据看起来井然有序,直观易懂。服务端通过读取MySQL数据库中的数据,利用数据可视化SSM框架技术将分析结果进行更加直观的图表化展示。综上所述,数据整体处理流程设计过程如图1所示。
3.2 功能设计
下载好的数据集中,每一条用户行为数据主要包含用户ID、商品ID、商品类目ID、行为类型和时间戳5个 字段。
通过分析可知,行为类型字段又包括点击、购买、加购、喜欢4种行为属性。通过对所有用户的行为类型属性进行统计,可得到每种属性在4种行为属性中的占比,对于卖家进一步提升自己的服务让更多的用户购买甚至是回购至关重要。
已知数据集中包括各个商品ID字段,通过统计各个商品的销售数据,可以分析出商品销售量排名;已知数据集中包括各个商品类目ID字段,通过统计各个商品类目
数据筛选HDFS存储Hive数据分析淘宝数据集MySQL分析
结果存储
SSM数据
可视化
图1 数据处理流程设计图
×10
点击购买加购物车收藏
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
时间/h
图2 买家24 h购物行为数量折线图
从图2可以看出,买家点击行为数量在各个时间点都要远高于同时间段的其他行为,在一天24 h中,买家点击、购买、添加购物车和收藏等行为数量从18:00开始增长,直到22:00到达顶峰后开始减少,到晚上23:00后各种行为数量开始趋于平缓。因此,对于商家和卖家来说,服务的主要精力应该放在18:00—23:00。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论