在线销售数据分析–人货场三维分析角度--688IT编程网

在线销售数据分析–⼈货场三维分析⾓度

⽂章⽬录

⼀、数据来源及理解

此次分析数据来源于第⼆届Power BI 可视化⼤赛样例数据，共有四个表，分别为sales

，store，item，district，⼀共有七⼗万左右的数据。

⼆、分析思路

按照⼈-货-场三维分析⾓度进⾏分析，分析导图：

三、数据处理

数据预处理

整个数据包括四张表，三⼗九个不同字段，但在实际分析过程中我们只⽤到了⼗五个字段，为了让数据分析更⾼效，所以我复制了⼀份并对其进⾏⼀个整合，成为⼀张表。

数据清洗

利⽤Python语⾔进⾏数据分析，开发⼯具有Jupyter Notebook，利⽤的包主要是pandas、numpy，matplotlib.pyplot。

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

%matplotlib inline

#coding=utf-8

file_name ='D:\\Analysis.xlsx'

xls = pd.ExcelFile(file_name)

xs = xls.parse('salesdata',dtype='object')

xs.info()

数据总共为327047 条，包含15个特征，接下对数据进⾏观察并做数据清洗处理。本次数据集⽐较“⼲净”，不存在缺失值。另外有些特征的属性需要更改，例如⾦额及销量的数据类型。

数据转换

数据类型全为object类型，转换数据类型为数值型

xs['Sum_GrossMarginAmount']=pd.to_numeric(xs['Sum_GrossMarginAmount'], errors='coerce').fillna(0)##数据⽂本型转换为数值型

xs['Sum_Regular_Sales_Dollars']=pd.to_numeric(xs['Sum_Regular_Sales_Dollars'], errors='coerce').fillna(0)

xs['Sum_Markdown_Sales_Dollars']=pd.to_numeric(xs['Sum_Markdown_Sales_Dollars'], errors='coerce').fillna(0)

xs['Sum_Regular_Sales_Units']=pd.to_numeric(xs['Sum_Regular_Sales_Units'], errors='coerce').fillna(0)

xs['Sum_Markdown_Sales_Units']=pd.to_numeric(xs['Sum_Markdown_Sales_Units'], errors='coerce').fillna(0)

xs['SellingAreaSize']=pd.to_numeric(xs['SellingAreaSize'], errors='coerce').fillna(0)

由于在本次数据集中没有明确的时间字段，所以我们在这不做时间维度的分析，如果要做时间维度的分析还需要对时间字段做⼀个类型转换。

四、数据描述性统计

xs[['Sum_GrossMarginAmount','Sum_Regular_Sales_Dollars','Sum_Markdown_Sales_Dollars','Sum_Regular_Sales_Units','Sum_Markdown_Sales_Units']] .describe()

可以看到在销售⾦额中存在着负数，这可能是退货的订单，需要进⾏筛选。可以看出各字段的平均值都在百分之75的订单之下，表明存在了⼀些购买⼒极强的⽤户。我们可以将图做出来会更加明显。以’Sum_Regular_Sales_Dollars’字段为例：

plt.subplot(341)

xs['Sum_Regular_Sales_Dollars'].hist(figsize=(10,6),bins=100,color='c')

plt.subplot(342)

xs[xs['Sum_Regular_Sales_Dollars']<1000]['Sum_Regular_Sales_Dollars'].hist(figsize=(10,6),bins=10,color='c')

plt.subplot(343)

xs[xs['Sum_Regular_Sales_Dollars']>3150]['Sum_Regular_Sales_Dollars'].hist(figsize=(10,6),bins=10,color='c')

plt.subplot(344)

xs[xs['Sum_Regular_Sales_Dollars']<0]['Sum_Regular_Sales_Dollars'].hist(figsize=(10,6),bins=10,color='c')

在第⼀张图中可以看出很明显的长尾效应，取了销售⾦额⼩于1000的数据可以看出⼤部分的销售⾦额都集中在0到250美元，另外，还存在⼏条销售⾦额⼤于3150美元订单。退货订单⾦额基本上在100美元以内，其具体原因后续可做具体分析（先出退货的订单⽤户，查⽤户在退货之后是否有购物情况，是否为第⼀次购买就退货等）

将其打印出来可以看到是来⾃itemid为155579、及183620的订单，⽽其购买的原因不得⽽知，如果有相关的数据可以进⾏分析是否为异常数据。

xs[xs['Sum_Regular_Sales_Dollars']>3150]

五、三维分析-⼈

⽤户质量分析

通过⼆⼋原则，去寻关键的那20%决定性因素！

# 计算⾼质量⽤户贡献了多少份额(28倾向）

user_amount = xs.groupby('Buyer')['Sum_Regular_Sales_Dollars'].sum().sort_values(ascending=False).reset_index() user_amount['amount_cumsum']= user_amount['Sum_Regular_Sales_Dollars'].cumsum()

amount_total = user_amount['amount_cumsum'].max()

user_amount['percentage']= user_amount['amount_cumsum']/ amount_total

#统计销量

user_count = xs.groupby('Buyer')['Sum_Regular_Sales_Units'].sum().sort_values(ascending=False).reset_index() user_count['count_cumsum']= user_count['Sum_Regular_Sales_Units'].cumsum()

count_total = user_count['count_cumsum'].max()

user_count['percentage']= user_count['count_cumsum']/ count_total

#画图

<('font', family='simhei', size=9)

plt.subplot(221)

plt.title('零售消费额占⽐')

plt.ylabel("累计⽐率")

plt.plot(user_amount['percentage'])

unicode在线工具

plt.subplot(222)

plt.title('零售销量占⽐')

plt.ylabel("累计⽐率")

plt.plot(user_count['percentage'])

plt.show()

user_amount.head(20)

⽤户类别分析

688IT编程网

在线销售数据分析–人货场三维分析角度

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

在线销售数据分析–人货场三维分析角度

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式