本栏目责任编辑:李雅琪
电子商务与电子政务
基于python 数据分析技术的电商平台大闸蟹市场分析
黄港作,张小慧,牛芗洁*
(北京农学院计算机与信息工程学院,北京100206)
摘要:随着信息科技的日益进步,手机、电脑集成了越来越多简单实用的程序与工具。而使用这些程序的同时产生了丰富
的数据,因此研究这些数据对于电商平台以及分析人类的行为趋势有着非常重要的意义。因此数据分析成为时下的热门话题,而由于Python 其本身语言的简洁性,成为众多数据分析科学家所使用的工具。关键词:数据可视化;消费者行为;python 中图分类号:TP311
文献标识码:A
文章编号:1009-3044(2021)15-0248-03
开放科学(资源服务)标识码(OSID ):
1数据分析为何使用Python ?
1.1简单易学
学习过其他语言如C++、C 、JAVA 的人应该知道,相较于其他语言Python 的语法简单、门槛低,代码通俗易懂,并且拥有十分庞大的库基本涵盖了各个领域,只需要上网查询调用即可。
并且Python 特别适合刚刚入门的人去学习,当我们需要处理数据时,处理数据的速度非常重要并且往往需要对大批量的数据集进行可视化处理,而Python 的学习人员只需要入门即可处理大量简单的数据。1.2强大的编程能力
Python 不同于R 语言以及Matlab ,Python 具备非常强大的
数据分析能力,同时Python 还可以用于爬虫、游戏编写,以及自动化运维,因此Python 有利于多学科、多业务之间的融合,尽量减少一个项目中使用过多的语言造成不兼容的情况,所以Py⁃thon 可以大大地提高工作效率,而Python 在运算效率上的缺失也可以通过提升机器硬件来弥补,毕竟时间成本有时远大于硬件成本。
1.3Python ——一门面向世界的编程语言
随着大数据、数据分析、人工智能的火热,Python 在语言排行榜中的地位迅速上升,因为人工智能需要的是即时性、逻辑性,而Python 作为一门简洁的语言同时拥有丰富的社区以及大量人员在使用,能产生丰富的数据以及相应的接口。因此操作人员无需再操心没有丰富的数据,节省了大量的时间以及相关功能的编程。
2数据分析
数据分析作为大数据的一种必不可少的技能,只有明确分析概念、分析工具、分析流程等相关知识才能更好地去分析数据。
2.1数据分析概念
数据分析是指在分析大批量数据研究时运用合理、适当、可行的方法对需要分析的数据进行分析,提取其背后的信息,形成结论。这是一个数据研究和总结的过程[1],随着信息技术的发展与迭代,企业生产、收集、存储和处理数据的能力有了质的飞跃,每天的数据吞吐量达到了惊人的地步。因此,利用数据分析方法对复杂的数据进行细化,研究数据的发展规律并预测趋势,进而帮助企业的管理层进行决策[2]。2.2数据分析的流程
(1)明确分析目的提出问题首先明确项目分析的目的,才能精准定位分析因子,提出有价值的问题以及清晰的思路。主要内容是根据业务、生产和财务这些部门的需求,结合现有数据情况[3],对数据内容进行细化和分析,最终与目的达成一致。
(2)数据采集
获取数据的手段有两种方式:网络爬虫与社区收集。其中爬虫指的是使用自定义的程序根据一定的规则去网页中获取特定规则的数据但需要注意的是通常有些数据是违法的。社区收集是指数据分析者通过去热门的社区如阿里天池等社区具有丰富的电商资料以及各式各样的数据内容。收集到的原始数据还需要进行数据加工,主要包括数据清洗、数据分组、数据检索、数据抽取等处理方法。
其中数据清洗涉及数据的格式、字体等相统一,同时需要对重复、异常的数据进行清洗,保证数据的干净以免在绘制可视图以及分析时出现误差。
数据分组是指将数据根据需求分成对应的数据组。数据检索以及数据抽取分别指的是在收集的数据中搜索目标内容,以及在数据源抽取数据的过程。
(3)分析建模
分析建模是指通过对比分析、分组分析、交叉分析、回归分
收稿日期:2020-12-21
248
电子商务与电子政务
本栏目责任编辑:李雅琪
Computer Knowledge and Technology 电脑知识与技术
第17卷第15期(2021年5月)
析等分析方法,以及聚类模型、分类模型、关联规则、智能推荐等模型和算法,发现数据中的有价值信息,并得出结论的
过程[4]
。
(4)优化数据模型
模型优化是指模型的性能经过模型的评估,但当前模型在实际生产环境下的性能并不理想,然后对模型进行重构和优化[4]。
(5)应用部署
应用部署是指在具体环境中根据不同的应用场景使用合适的数据分析模型。同时项目的进度不同其表现的形式也不尽相同,在项目的部署阶段可以通过数据分析对整个项目进行评估,也可以是将模型部署在生产系统的解决方案[4]。通常情况下数据分析员可以通过根据项目方提供的对应数据,最终提供需求方的解决报告。
3常见的四种数据分析方法
当开始数据分析项目时,通常首先分别分析每个变量,以
描述拥有的数据并评估其质量,接下来的步骤是探索变量之间存在的关系。这些关系可能会导致对数据所代表的总体得出某些推论或结论。结论将会分析出数据集中并不存在的数据。但是,在导致决策或行动步骤之前,数据分析无效。3.1描述性分析
在四种数据分析方法中最简单的则是描述性分析,描述性分析通过总结数据集中的变量值。例如,调查者对一些特定的问题进行1至10的评分,那么描述性分析可以通过总结受访者的中位数、百分比或者数量,以及特定评分的一个趋势变化。描述性分析需要熟悉数据集并识别数据问题。3.2探索性分析
在进行数据分析之前,需要了解项目所拥有的数据,然后寻数据元素之间的关系,这被称为探索性数据分析,一般侧重于变量之间的相关性。3.2推理分析
以制定消费者对市场经济恢复的信心指数为例,调查员无需向每一个消费者去调查他关于市场经济的信心。只需要按一定比例在人口中进行调研即可得出指数结果。理解推理分析是非常重要的,因为可以通过选择不同的样本从数据集中得出大相径庭的结论[7]。所以消费者信心指数需要在数据集中随机选择样本,才能保证无论选择何种样本结论是一致的。3.3预测分析
预测分析在当前商业智能程序中应用非常广泛。可以通过使用目前拥有的数据来预测将来的结果。例如,保险公司可以根据用户的身体健康、性别、年龄等数据来预测客户属于哪一种体,进而提高相应的保费。分析人员通过在已知结果的数据集上使用神经网络等数据挖掘手段训练模型,然后将模型接入
App 中。
4数据分析常用的工具
主流的数据分析语言包括Python 、R 和MAT-LAB 。其中,Python 拥有丰富而强大的函式库,通常被称为胶水语言,可以轻松地使各种以其他语言制作的模组。
合在一起,它是一种更容易学习和严谨的编程语言,常用
于数据分析、机器学习、矩阵运算、科学数据可视化、数字图像
处理、网络爬虫、网络应用[6]
。
R 语言常用于统计分析、机器学习、科学数据可视化等,MAT-LAB 用于矩阵运算、数值分析、科学数据可视化、机器学习、符号运算、数字图像处理和信号处理。因此以上三种语言均可进行数据处理分析。
5大闸蟹销售数据分析
本次收集数据共5090组,数据来源于天元数据网收集的于2018年9月份,天猫商城中关于大闸蟹的各个店铺销售数据。其中收集数据项包括:商品id 、商品名称、品牌名称、价格、商品原价、商品销售量、商品销售额、商品url 、类目id 、类目、商品评价数、商品收藏数、商品库存、商品发货地、商品产地国家、商品参数、店铺id 、店铺名称、店铺省份、店铺城市、店铺开店时间、店铺开店年数。同时使用numpy 以及pandas 中含有的数据分析包,来对其中的数据进行可视化分析。
在进行数据分析前,先需要对数据进行清洗,可以通过Jupyter 进行数据分析时使用is_null ()方法来出异常的空值。5.1店铺分布
通过使用Python 绘图统计分析如图一所示,所收集的数据中有售卖大闸蟹的店铺共计5089家,分布在全国60个省市。其中江苏苏州店铺最多3822家,厦门、海口、赣州这三个城市最少各仅有1家。位列第二、第三的分别是上海与北京,分别为366与133家。
可以看出店铺多的地方,均为发达一线城市,而店铺少的基本为沿海城市。5.2店铺总销售额情况
要获取总销售额的情况可以通过pandas 先获取表格数据,
然后再使用sort_values()函数对现有的数据进行排序最终再获取前10的排名,如图1所示。
从最终获取的数据,我们不难分析出,占据销售前十的商品,天猫超市生鲜店占据头部位置。其余的店
铺与天猫旗舰商
店的销售额差距还是非常大的。
图1店铺总销售额排名
具体代码如下:import numpy as np import pandas as pd
import matplotlib.pyplot as plt from datetime import datetime from pylab import *
249
本栏目责任编辑:李雅琪
电子商务与电子政务Computer Knowledge and Technology 电脑知识与技术第17卷第15期(2021年5月)
plt.style.use('ggplot')ad_csv(r'C:\Users\***\2020\sell_dazhaxie.csv',engine='python')
x=df[['商品名称','店铺名称','商品销售额(元)']].sort_val⁃ues(by=['商品销售额(元)'],ascending=False).head(25)5.3商品价格与商品销售量
通过排列、筛查等手段洗去极端值后,建立价格范围为(0-1000元)所对应的商品销售量数据可视化图形如图2所示。从图形上来看洗去极端值与空值后的4491组数据,不难发现它们之间所对应的数据没有一个明显的、平滑的规律,这是由于商品的销售量可能是由多重因素决定的而不是简单地与商品的价格
相联系。如从5.2中的结论可以看出天猫旗舰店本身也是一个极端值,其店铺所销售的商品销售额远大于其他的店铺,这为得出商品价格与销售额之间的关系产生了干扰。
但从图中也可以明显的发现随着价格的提升销售量(只)
以肉眼可见的速度下降。
图2商品价格与商品销售量关系图
5.4开店年数与商品销售量
经过数据清洗完极端值与空值后,以店铺开店年数为x 轴间隔一年与商品销售量(只)为y 轴使用python 绘图工具进行数据可视化如图3
。
图3开店年数与商品销售量关系图
从图中可以发现,虹吸效应在每个区间分外明显,如[3-4]、[4-6]每个区间只有一家店铺的销量会遥遥领先于其他店铺,并且在经过数据清洗后剩下的3677家店铺中,仅有不到3家达到了2018年9月份销售20000只以上的大闸蟹。
同时也可以从图中得出,店铺开店时间为一年或者多年,几乎每一年都有接近2万销售量的店铺诞生。5.5商品收藏数与商品销售量
该图4经过数据清洗后,剩余3677家店铺,以每家店铺大
闸蟹商品收藏数(个)为x 轴,商品销售量(只)为Y 轴,经过数据
可视化处理。
图4商品收藏数与商品销售量关系图
不难发现,当商品收藏数处于较大时仍有销售量低迷的情况,而收藏量处于(0-10000条)销售量分布比较均匀,同时也可以发现,只有当收藏量大时才有销售量超高的存在。当收藏量处于(0-10000条)时销售量与商品收藏数有着明显的正相关性。
6结语
大数据影响各行各业的发展,农产品的销售也不例外,首先从5.4的结论来看,只要用心做店铺,即便开店年数不高仍有机会做爆款大闸蟹的潜力,其次从5.5中的结论可以发现,商品收藏数与商品销售量有着明显的正相关性,说明要提高销售量可以适当从打开店铺知名度上入手,如提高收藏量至[5000-15000]之间。
综上所述,商品的销售量与店铺的开店年数没有明显的正相关性,而与店铺的知名度有着明显的正相关性,所以大闸蟹商家如果需要提高店铺销售量,可以从提高店铺的收藏量入手。
参考文献:
[1]翟高粤.基于Python 的数据分析概述[J].甘肃科技纵横,2018,47(11):5-7,26.
[2]刘熠.基于python 的Web 数据挖掘技术研究与实现[D].荆州:长江大学,2018.
[3]顾荣.大数据处理技术与系统研究[D].南京:南京大学,2016.[4]郭雷风.面向农业领域的大数据关键技术研究[D].北京:中国农业科学院,2016.
[5]吴瑕.大数据分析在农产品电商中的应用研究[J].现代营销(下旬刊),2020(6):196-197.
[6]赵书慧.电商市场中大数据挖掘的分析以及决策探究[J].中国新通信,2020,22(12):66.
[7]李海英.大数据在跨境电商产业链中的应用对策探讨[J].电子商务,2020(5):28-29.
计算机语言排行榜2021【通联编辑:梁书】
250
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论