python多组直方图画图_5种方法教你用Python玩转histogram直方图--688IT编程网

python多组直⽅图画图_5种⽅法教你⽤Python玩转histogram

直⽅图

直⽅图是⼀个可以快速展⽰数据概率分布的⼯具，直观易于理解，并深受数据爱好者的喜爱。⼤家平时可能见到最多就是

matplotlib，seaborn等⾼级封装的库包，类似以下这样的绘图。

本篇博主将要总结⼀下使⽤Python绘制直⽅图的所有⽅法，⼤致可分为三⼤类(详细划分是五类，参照⽂末总结)：纯Python实现直⽅图，不使⽤任何第三⽅库

使⽤Numpy来创建直⽅图总结数据

使⽤matplotlib，pandas，seaborn绘制直⽅图

下⾯，我们来逐⼀介绍每种⽅法的来龙去脉。

纯Python实现histogram

当准备⽤纯Python来绘制直⽅图的时候，最简单的想法就是将每个值出现的次数以报告形式展⽰。这种情况下，使⽤字典来完成这个任务是⾮常合适的，我们看看下⾯代码是如何实现的。>>> a = (0, 1, 1, 1, 2, 3, 7, 7, 23)

>>> def count_elements(seq) -> dict:

... """Tally elements from `seq`."""

... hist = {}

.. for i in seq:

... hist[i] = (i, 0) + 1

... return hist

>>> counted = count_elements(a)

>>> counted

{0: 1, 1: 3, 2: 1, 3: 1, 7: 2, 23: 1}

我们看到，count_elements()返回了⼀个字典，字典⾥出现的键为⽬标列表⾥⾯的所有唯⼀数值，⽽值为所有数值出现的频率次数。

hist[i] = (i, 0) + 1实现了每个数值次数的累积，每次加⼀。

实际上，这个功能可以⽤⼀个Python的标准库collection.Counter类来完成，它兼容Pyhont 字典并覆盖了字典的.update()⽅法。

>>> from collections import Counter

>>> recounted = Counter(a)

>>> recounted

Counter({0: 1, 1: 3, 3: 1, 2: 1, 7: 2, 23: 1})

可以看到这个⽅法和前⾯我们⾃⼰实现的⽅法结果是⼀样的，我们也可以通过collection.Counter来检验两种⽅法得到的结果是否相等。>>> recounted.items() == counted.items()

True

我们利⽤上⾯的函数重新再造⼀个轮⼦ASCII_histogram，并最终通过Python的输出格式format来实现直⽅图的展⽰，代码如下：

def ascii_histogram(seq) -> None:

"""A horizontal frequency-table/histogram plot."""

counted = count_elements(seq)

for k in sorted(counted):

print('{0:5d} {1}'.format(k, '+' * counted[k]))

这个函数按照数值⼤⼩顺序进⾏绘图，数值出现次数⽤(+)符号表⽰。在字典上调⽤sorted()将会返回⼀个按键顺序排列的列表，然后就可以获取相应的次数counted[k]。>>> import random

>>> random.seed(1)

>>> vals = [1, 3, 4, 6, 8, 9, 10]

>>> # `vals` ⾥⾯的数字将会出现5到15次

>>> freq = (random.randint(5, 15) for _ in vals)

>>> data = []

>>> for f, v in zip(freq, vals):

... d([v] * f)

>>> ascii_histogram(data)

1 +++++++

3 ++++++++++++++

4 ++++++

6 +++++++++

8 ++++++

9 ++++++++++++

10 ++++++++++++

这个代码中，vals内的数值是不重复的，并且每个数值出现的频数是由我们⾃⼰定义的，在5和15之间随机选择。然后运⽤我们上⾯封装的函数，就得到了纯Python版本的直⽅图展⽰。

总结：纯python实现频数表(⾮标准直⽅图)，可直接使⽤collection.Counter⽅法实现。

使⽤Numpy实现histogram

以上是使⽤纯Python来完成的简单直⽅图，但是从数学意义上来看，直⽅图是分箱到频数的⼀种映射，它可以⽤来估计变量的概率密度函数的。⽽上⾯纯Python实现版本只是单纯的频数统计，不是真

正意义上的直⽅图。

因此，我们从上⾯实现的简单直⽅图继续往下进⾏升级。⼀个真正的直⽅图⾸先应该是将变量分区域(箱)的，也就是分成不同的区间范围，然后对每个区间内的观测值数量进⾏计数。恰巧，Numpy的直⽅图⽅法就可以做到这点，不仅仅如此，它也是后⾯将要提到的matplotlib 和pandas使⽤的基础。

举个例⼦，来看⼀组从拉普拉斯分布上提取出来的浮点型样本数据。这个分布⽐标准正态分布拥有更宽的尾部，并有两个描述参数(location 和scale)：

>>> import numpy as np

>>> np.random.seed(444)

>>> np.set_printoptions(precision=3)

>>> d = np.random.laplace(loc=15, scale=3, size=500)

>>> d[:5]

array([18.406, 18.087, 16.004, 16.221, 7.358])

由于这是⼀个连续型的分布，对于每个单独的浮点值(即所有的⽆数个⼩数位置)并不能做很好的标签(因为点实在太多了)。但是，你可以将数据做分箱处理，然后统计每个箱内观察值的数量，这就是真正的直⽅图所要做的⼯作。

python新手代码画图

下⾯我们看看是如何⽤Numpy来实现直⽅图频数统计的。

>>> hist, bin_edges = np.histogram(d)

>>> hist

array([ 1, 0, 3, 4, 4, 10, 13, 9, 2, 4])

>>> bin_edges

array([ 3.217, 5.199, 7.181, 9.163, 11.145, 13.127, 15.109, 17.091,

19.073, 21.055, 23.037])

这个结果可能不是很直观。来说⼀下，np.histogram()默认地使⽤10个相同⼤⼩的区间(箱)，然后返回⼀个元组(频数，分箱的边界)，如上所⽰。要注意的是：这个边界的数量是要⽐分箱数多⼀个的，可以简单通过下⾯代码证实。>>> hist.size, bin_edges.size

(10, 11)

那问题来了，Numpy到底是如何进⾏分箱的呢？只是通过简单的 np.histogram()就可以完成了，但具体是如何实现的我们仍然全然不知。下⾯让我们来将 np.histogram()的内部进⾏解剖，看看到底是如何实现的(以最前⾯提到的a列表为例)。>>> # 取a的最⼩值和最⼤值

>>> first_edge, last_edge = a.min(), a.max()

>>> n_equal_bins = 10 # NumPy得默认设置，10个分箱

>>> bin_edges = np.linspace(start=first_edge, stop=last_edge,

... num=n_equal_bins + 1, endpoint=True)

...

>>> bin_edges

array([ 0. , 2.3, 4.6, 6.9, 9.2, 11.5, 13.8, 16.1, 18.4, 20.7, 23. ])

解释⼀下：⾸先获取a列表的最⼩值和最⼤值，然后设置默认的分箱数量，最后使⽤Numpy的linspace

⽅法进⾏数据段分割。分箱区间的结果也正好与实际吻合，0到23均等分为10份，23/10，那么每份宽度为2.3。

除了np.histogram之外，还存在其它两种可以达到同样功能的⽅法：np.bincount()和np.searchsorted()，下⾯看看代码以及⽐较结果。>>> bcounts = np.bincount(a)

>>> hist, _ = np.histogram(a, range=(0, a.max()), bins=a.max() + 1)

>>> np.array_equal(hist, bcounts)

True

>>> # Reproducing `collections.Counter`

>>> dict(zip(np.unique(a), o()]))

{0: 1, 1: 3, 2: 1, 3: 1, 7: 2, 23: 1}

总结：通过Numpy实现直⽅图，可直接使⽤np.histogram()或者np.bincount()。

使⽤Matplotlib和Pandas可视化Histogram

从上⾯的学习，我们看到了如何使⽤Python的基础⼯具搭建⼀个直⽅图，下⾯我们来看看如何使⽤更为强⼤的Python库包来完成直⽅图。Matplotlib基于Numpy的histogram进⾏了多样化的封装并提供了更加完善的可视化功能。

import matplotlib.pyplot as plt

# matplotlib.axes.Axes.hist() ⽅法的接⼝

n, bins, patches = plt.hist(x=d, bins='auto', color='#0504aa',

alpha=0.7, rwidth=0.85)

plt.xlabel('Value')

plt.ylabel('Frequency')

plt.title('My Very Own Histogram')

<(23, 45, r'$\mu=15, b=3$')

maxfreq = n.max()

# 设置y轴的上限

plt.ylim(il(maxfreq / 10) * 10 if maxfreq % 10 else maxfreq + 10)

之前我们的做法是，在x轴上定义了分箱边界，y轴是相对应的频数，不难发现我们都是⼿动定义了分箱的数⽬。但是在以上的⾼级⽅法中，我们可以通过设置bins='auto'⾃动在写好的两个算法中择优选择并最终算出最适合的分箱数。这⾥，算法的⽬的就是选择出⼀个合适的区间(箱)宽度，并⽣成⼀个最能代表数据的直⽅图来。

如果使⽤Python的科学计算⼯具实现，那么可以使⽤Pandas的Series.histogram()，并通过matplotlib.pyplot.hist()来绘制输⼊Series的直⽅图，如下代码所⽰。import pandas as pd

size, scale = 1000, 10

commutes = pd.Series(np.random.gamma(scale, size=size) ** 1.5)

commutes.plot.hist(grid=True, bins=20, rwidth=0.9,

color='#607c8e')

plt.title('Commute Times for 1,000 Commuters')

plt.xlabel('Counts')

plt.ylabel('Commute Time')

pandas.DataFrame.histogram()的⽤法与Series是⼀样的，但⽣成的是对DataFrame数据中的每⼀列的直⽅图。

总结：通过pandas实现直⽅图，可使⽤Seris.plot.hist()，DataFrame.plot.hist()，matplotlib实现直⽅图可以⽤

matplotlib.pyplot.hist()。

绘制核密度估计(KDE)

KDE(Kernel density estimation)是核密度估计的意思，它⽤来估计随机变量的概率密度函数，可以将

数据变得更平缓。

使⽤Pandas库的话，你可以使⽤plot.kde()创建⼀个核密度的绘图，plot.kde() 对于 Series和DataFrame数据结构都适⽤。但是⾸先，我们先⽣成两个不同的数据样本作为⽐较(两个正太分布的样本)：

>>> # 两个正太分布的样本

>>> means = 10, 20

>>> stdevs = 4, 2

>>> dist = pd.DataFrame(

... al(loc=means, scale=stdevs, size=(1000, 2)),

... columns=['a', 'b'])

>>> dist.agg(['min', 'max', 'mean', 'std']).round(decimals=2)

a b

min -1.57 12.46

max 25.32 26.44

mean 10.12 19.94

std 3.94 1.94

以上看到，我们⽣成了两组正态分布样本，并且通过⼀些描述性统计参数对两组数据进⾏了简单的对⽐。现在，我们可以在同⼀个Matplotlib轴上绘制每个直⽅图以及对应的kde，使⽤pandas的plot.kde()的好处就是：它会⾃动的将所有列的直⽅图和kde都显⽰出来，⽤起来⾮常⽅便，具体代码如下：fig, ax = plt.subplots()

dist.plot.kde(ax=ax, legend=False, title='Histogram: A vs. B')

dist.plot.hist(density=True, ax=ax)

688IT编程网

python多组直方图画图_5种方法教你用Python玩转histogram直方图

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

python多组直方图画图_5种方法教你用Python玩转histogram直方图

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式