数据分析:某地医院药品销售业务数据分析--688IT编程网

数据分析：某地医院药品销售业务数据分析

本篇⽂章以朝阳医院2018年销售数据为例，⽬的是了解朝阳医院在2018年⾥的销售情况⼏个业务指标

⽉均消费次数

⽉均消费⾦额

客单价

消费趋势

数据分析的步骤：提出问题→理解数据→数据清洗→构建模型→数据可视化

⼀.确定业务问题

我们知道，数据分析是指⽤适当的统计分析⽅法对收集来的⼤量数据进⾏分析，提取有⽤信息和形成结论⽽对数据加以详细研究和概括总结的过程。

那么，与之对应的数据分析基本过程包括：获取数据、数据清洗、构建模型、数据可视化以及消费趋势等

⼆：数据概览

# 2018年朝阳医院数据消费⾦额趋势图

import matplotlib.pyplot as plt

from pandas import Series,DataFrame

import pandas as pd

import numpy as np

fileNameStr='F:\\Downloads\朝阳医院2018年销售数据.xlsx'

xls=pd.ExcelFile(fileNameStr,dtype='object')

salesDf = xls.parse('Sheet1',dtype='object')

salesDf.info()

打印结果

RangeIndex: 6578 entries, 0 to 6577

Data columns (total 7 columns):

购药时间 6576 non-null object

社保卡号 6576 non-null float64

商品编码 6577 non-null float64

商品名称 6577 non-null object

销售数量 6577 non-null float64

应收⾦额 6577 non-null float64

实收⾦额 6577 non-null float64

dtypes: float64(5), object(2)

memory usage: 359.8+ KB

数据概览

salesDf.head()

打印结果

购药时间社保卡号商品编码商品名称销售数量应收⾦额实收⾦额

0 2018-01-01 星期五 001616528 236701 强⼒VC银翘⽚ 6 82.8 69

1 2018-01-0

2 星期六 001616528 236701 清热解毒⼝服液 1 28 24.64

2 2018-01-06 星期三 0012602828 236701 感康 2 16.8 15

3 2018-01-11 星期⼀ 0010070343428 236701 三九感冒灵 1 28 28

4 2018-01-1

5 星期五 00101554328 236701 三九感冒灵 8 224 208

# ⾏、列数

salesDf.shape

(6578, 7)

salesDf.index

RangeIndex(start=0, stop=6578, step=1)

Index(['购药时间', '社保卡号', '商品编码', '商品名称', '销售数量', '应收⾦额', '实收⾦额'], dtype='object')

购药时间 6576

社保卡号 6576

商品名称 6577

销售数量 6577

应收⾦额 6577

实收⾦额 6577

dtype: int64

数据缺失：总共有6578⾏7列数据，但是“购药时间”和“社保卡号”这两列只有6576个数据，⽽“商品编码”⼀直到“实收⾦额”这些列都是只有6577个数据，数据中存在缺失值，可以推断出数据中存在⼀⾏缺失值，此外“购药时间”和“社保卡号”这两列都各⾃存在⼀个缺失数据。

在任何数据分析的操作步骤中，为保证数据分析准确性，数据清洗步骤就显得尤为重要。

三.数据清洗

数据清洗过程，或称数据预处理，主要包括以下⼏个步骤

选择⼦集

列名重命名

删除缺失数据

数据类型转换

数据排序

异常值处理

1选择⼦集

在我们获取到的数据中，可能数据量⾮常庞⼤，并不是每⼀列都有价值都需要分析，这时候就需要从整个数据中选取合适的⼦集进⾏分析，这样能从数据中获取最⼤价值。

2列名重命名

在数据分析过程中，有些列名和数据容易混淆或产⽣歧义，不利于数据分析，这时候需要把列名换成容易理解的名称，可以采⽤rename函数实现：

salesDf.head()

打印结果

销售时间社保卡号商品编码商品名称销售数量应收⾦额实收⾦额

0 2018-01-01 星期五 1.616528e+06 236701.0 强⼒VC银翘⽚ 6.0 82.8 69.00

1 2018-01-0

2 星期六 1.616528e+06 236701.0 清热解毒⼝服液 1.0 28.0 24.64

2 2018-01-06 星期三 1.260283e+07 236701.0 感康 2.0 16.8 15.00

3 2018-01-11 星期⼀ 1.007034e+10 236701.0 三九感冒灵 1.0 28.0 28.00

4 2018-01-1

5 星期五 1.015543e+08 236701.0 三九感冒灵 8.0 224.0 208.00

3 缺失数据处理

任何⼀个得到的数据都很有可能会有缺失值，删除列（销售时间，社保卡号）中为空的⾏，使⽤dropna删除缺失数据

print('删除缺失值前⼤⼩',salesDf.shape)

# how='any' 给定的任何⼀列中有缺失值就删除

salesDf=salesDf.dropna(subset=['销售时间','社保卡号'],how='any')

print('删除缺失后⼤⼩',salesDf.shape)

打印结果

删除缺失值前⼤⼩ (6578, 7)

删除缺失后⼤⼩ (6575, 7)

4 数据类型处理

在导⼊的时候为了防⽌有些数据导⼊不进来，所以强制所有数据都是object类型，但在实际分析上这样是不可能的。

通过观察，销售数量，应收⾦额，实收⾦额，应该改成float类型，销售时间应该清理后改成时间类型，对于改变成float类型的⼏列，使⽤astype函数，代码如下。

salesDf['销售数量']=salesDf['销售数量'].astype('float')

salesDf['应收⾦额']=salesDf['应收⾦额'].astype('float')

salesDf['实收⾦额']=salesDf['实收⾦额'].astype('float')

print('转换后的数据类型：\n',salesDf.dtypes)

打印结果

销售时间 object

社保卡号 object

商品编码 object

商品名称 object

销售数量 float64

应收⾦额 float64

实收⾦额 float64

dtype: object

⽽销售时间那⼀列，则需要进⾏处理后才能转换为时间类型，把销售时间的⽇期和星期分开

分割时间列，定义函数：分割销售⽇期，获取销售⽇期

def splitSaletime(timeColSer):

timeList=[]

for value in timeColSer:

#例如2018-01-01 星期五，分割后为：2018-01-01

dateStr=value.split(' ')[0]

timeList.append(dateStr)

timeSer=pd.Series(timeList)

return timeSer

获取“销售时间”这⼀列，对字符串进⾏分割，获取销售⽇期

timeSer=salesDf.loc[:,'销售时间']

dateSer=splitSaletime(timeSer)

修改销售时间这⼀列的值

打印结果

dateSer[0:3]

0 2018-01-01

1 2018-01-02

2 2018-01-06

dtype: object

获取分割之后的销售⽇期，少了星期时间字符

salesDf.loc[:,'销售时间']=dateSer

salesDf.head()

打印结果

销售时间社保卡号商品编码商品名称销售数量应收⾦额实收⾦额

0 2018-01-01 001616528 236701 强⼒VC银翘⽚ 6.0 82.8 69.00

1 2018-01-0

2 001616528 236701 清热解毒⼝服液 1.0 28.0 24.64

2 2018-01-06 0012602828 236701 感康 2.0 16.8 15.00

3 2018-01-11 0010070343428 236701 三九感冒灵 1.0 28.0 28.00

4 2018-01-1

5 00101554328 236701 三九感冒灵 8.0 224.0 208.00

5 数据排序

使⽤sort_values进⾏排序，by：按哪⼏列排序，ascending=True 表⽰升序排列，ascending=False表⽰降序排列#按销售时间进⾏升序排列

salesDf=salesDf.sort_values(by='销售时间',ascending=True)

#查看排序后的前10⾏

salesDf.head(10)

打印结果

销售时间社保卡号商品编码商品名称销售数量应收⾦额实收⾦额

0 2018-01-01 001616528 236701 强⼒VC银翘⽚ 6.0 82.8 69.0

3436 2018-01-01 0010616728 865099 硝苯地平⽚(⼼痛定) 2.0 3.4 3.0

1190 2018-01-01 0010073966328 861409 ⾮洛地平缓释⽚(波依定) 5.0 162.5 145.0

3859 2018-01-01 0010073966328 866634 硝苯地平控释⽚(欣然) 6.0 111.0 92.5

3888 2018-01-01 0010014289328 866851 缬沙坦分散⽚(易达乐) 1.0 26.0 23.0

交易时间字符串是什么894 2018-01-01 0013331728 861405 苯磺酸氨氯地平⽚(络活喜) 2.0 69.0 62.0

893 2018-01-01 0011743428 861405 苯磺酸氨氯地平⽚(络活喜) 1.0 34.5 31.0

4368 2018-01-01 00103283128 870921 卡托普利⽚ 1.0 2.4 2.2

4562 2018-01-01 0010074599128 874684 厄贝沙坦氢氯噻嗪⽚(依伦平) 5.0 118.0 118.0

5039 2018-01-01 0010017493928 868042 马来酸左旋氨氯地平⽚(⽞宁) 1.0 46.0 46.0

重命名⾏名（index），使⽤reset_index修改成从0到N按顺序排序的索引值index

set_index(drop=True)

查看数据 salesDf.head(6)

销售时间社保卡号商品编码商品名称销售数量应收⾦额实收⾦额

0 2018-01-01 001616528 236701 强⼒VC银翘⽚ 6.0 82.8 69.0

1 2018-01-01 0010616728 865099 硝苯地平⽚(⼼痛定) 2.0 3.4 3.0

2 2018-01-01 0010073966328 861409 ⾮洛地平缓释⽚(波依定) 5.0 162.5 145.0

3 2018-01-01 0010073966328 86663

4 硝苯地平控释⽚(欣然) 6.0 111.0 92.5

4 2018-01-01 0010014289328 866851 缬沙坦分散⽚(易达乐) 1.0 26.0 23.0

5 2018-01-01 0013331728 861405 苯磺酸氨氯地平⽚(络活喜) 2.0 69.0 62.0

6 异常值处理

查看汇总数据描述，其中销售数量值不能⼩于0

salesDf.describe()

打印结果

销售数量应收⾦额实收⾦额

count 6549.000000 6549.000000 6549.000000

mean 2.384486 50.449076 46.284370

std 2.375227 87.696401 81.058426

min -10.000000 -374.000000 -374.000000

25% 1.000000 14.000000 12.320000

50% 2.000000 28.000000 26.500000

75% 2.000000 59.600000 53.000000

max 50.000000 2950.000000 2650.000000

通过条件判断来删除异常值

querySer=salesDf.loc[:,'销售数量']>0

print('删除异常值前：',salesDf.shape)

salesDf=salesDf.loc[querySer,:]

print('删除异常值后：',salesDf.shape)

# 打印结果

删除异常值前： (6549, 7)

删除异常值后： (6506, 7)

数据的预处理⼯作完成，接下来分析业务的各个指标

四构建数据模型

1.⽉份数

业务指标1:⽉均消费次数=总消费次数 / ⽉份数

在计算总的消费次数当中将每个⼈每天的不同消费记录作为消费⼀次,⽤drop_duplicates去掉同⼀天同⼀个⼈的重复消费记录根据列名（销售时间，社区卡号），如果这两个列值同时相同，只保留1条，将重复的数据删除

kpi1_Df=salesDf.drop_duplicates(subset=['销售时间', '社保卡号'])

#总消费次数

totalI=kpi1_Df.shape[0]

print('总消费次数=',totalI)

# 打印结果：总消费次数= 5342

# 计算⽉份数

#按销售时间升序排序

kpi1_Df=kpi1_Df.sort_values(by='销售时间',ascending=True)

#重命名⾏名，索引排序

kpi1_Df=set_index(drop=True)

kpi1_Df.head()

打印结果

销售时间社保卡号商品编码商品名称销售数量应收⾦额实收⾦额

0 2018-01-01 001616528 236701 强⼒VC银翘⽚ 6.0 82.8 69.0

1 2018-01-01 0012697828 861464 复⽅利⾎平⽚(复⽅降压⽚) 4.0 10.0 9.4

2 2018-01-01 0010060654328 861458 复⽅利⾎平氨苯蝶啶⽚(北京降压0号) 1.0 10.

3 9.2

3 2018-01-01 0011811728 861456 酒⽯酸美托洛尔⽚(倍他乐克) 1.0 7.0 6.3

4 2018-01-01 0013448228 861507 苯磺酸氨氯地平⽚(安内真) 1.0 9.

5 8.5

计算总⽉份数，第⼀⾏时间与结尾时间之差除以30取整

startTime=kpi1_Df.loc[0,'销售时间']

#最⼤时间值

endTime=kpi1_Df.loc[totalI-1,'销售时间']

#天数

daysI=(endTime-startTime).days

#⽉份数: 运算符“//”表⽰取整除

#返回商的整数部分，例如9//2 输出结果是4

monthsI=daysI//30

print('⽉份数：',monthsI)

⽉份数： 6

2.⽉均消费次数

业务指标2：⽉均消费次数=总消费次数 / ⽉份数

计算⽉均消费次数

kpi1_I=totalI // monthsI

print('业务指标2：⽉均消费次数=',kpi1_I)

# 打印结果

业务指标2：⽉均消费次数= 890

3.⽉均消费⾦额

指标3：⽉均消费⾦额 = 总消费⾦额 / ⽉份数

#总消费⾦额

totalMoneyF=salesDf.loc[:,'实收⾦额'].sum()

#⽉均消费⾦额

monthMoneyF=totalMoneyF / monthsI

print('业务指标3：⽉均消费⾦额=',monthMoneyF)

业务指标3：⽉均消费⾦额= 50668.35166666666

4.客单价

指标4：客单价=总消费⾦额 / 总消费次数

客单价（per customer transaction）是指商场（超市）每⼀个顾客平均购买商品的⾦额，客单价也即是平均交易⾦额。'''

totalMoneyF：总消费⾦额

totalI：总消费次数

'''

pct=totalMoneyF / totalI

print('客单价：',pct)

客单价： 56.909417821040805

5.消费趋势图

#在进⾏操作之前，先把数据复制到另⼀个数据框中，防⽌对之前清洗后的数据框造成影响

groupDf=salesDf

#第1步：重命名⾏名（index）为销售时间所在列的值

groupDf.index=groupDf['销售时间']

groupDf.head()

打印结果

销售时间社保卡号商品编码商品名称销售数量应收⾦额实收⾦额

销售时间

2018-01-01 2018-01-01 001616528 236701 强⼒VC银翘⽚ 6.0 82.8 69.0

2018-01-01 2018-01-01 0010616728 865099 硝苯地平⽚(⼼痛定) 2.0 3.4 3.0

2018-01-01 2018-01-01 0010073966328 861409 ⾮洛地平缓释⽚(波依定) 5.0 162.5 145.0

2018-01-01 2018-01-01 0010073966328 866634 硝苯地平控释⽚(欣然) 6.0 111.0 92.5

688IT编程网

数据分析:某地医院药品销售业务数据分析

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

数据分析:某地医院药品销售业务数据分析

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则