Python数据分析与挖掘实战-基础篇总结(一)1、数据挖掘基础2、--688IT编程网

Python数据分析与挖掘实战-基础篇总结（⼀）1、数据挖掘基础2、python数据

分析简。。。

⽬录

1、数据挖掘基础

1.1 数据挖掘的基本任务：

1.2数据挖掘建模过程：

1.3常⽤的数据挖掘建模⼯具

2、python数据分析简介

2.1 python环境搭建

2.2 python数据分析第三⽅库

2.2.1 Numpy基本操作

2.2.2 Pandas简单例⼦

3、数据探索

3.1 数据质量分析

3.1.1 缺失值分析

3.1.2 异常值分析

3.1.3 ⼀致性分析

3.2 数据特征分析

3.2.1 分布分析

3.2.2 对⽐分析

3.2.3 统计量分析

3.2.4 周期性分析

3.2.5 贡献度分析

3.2.6 相关性分析

3.3 Python主要数据探索函数

3.3.1 基本统计特征函数

3.3.2 拓展统计特征函数

3.3.3 统计作图函数

1、数据挖掘基础

1.1 数据挖掘的基本任务：

数据挖掘的基本任务包括利⽤分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等⽅法，帮助企业提取数据中蕴含的商业价值，提⾼企业竞争⼒。

1.2数据挖掘建模过程：

1、⽬标定义

任务理解

指标确定

2、数据采集

建模抽样

质量把控

实时采集

3、数据整理

数据探索

数据清洗

数据变换-预处理

4、构建模型

模式发现

构建模型

验证模型

5、模型评价

设定模型评价标准

多模型对⽐

模型优化

6、模型发布

模型部署

模型重构

1.3常⽤的数据挖掘建模⼯具

SAS Enterprise Miner

IBM SPSS Modeler

SQL Server

Python

WEKA

KNIME

linspace函数pythonRapidMiner

TipDM

2、python数据分析简介2.1 python环境搭建略·········

2.2 python数据分析第三⽅库

库

简介

—|---

Numpy

提供数组⽀持，以及相应的⾼效的处理函数

Pandas

强⼤，灵活的数据分析和探索⼯具

Matplotlib

强⼤的数据可视化⼯具、作图库

Scipy

提供矩阵⽀持，以及矩阵相关的数值计算模块

StatsModels

统计建模和计量经济学，包括描述统计、统计建模估计和推断

Scikit-Learn

⽀持回归、分类、聚类等强⼤的机器学习库

Keras

深度学习库，⽤于建⽴神经⽹络以及深度学习模型

Gensim

⽤来做⽂本主题模型的库，⽂本挖掘可能⽤到

涉及图⽚处理可以⽤Pillow，涉及视频处理可以⽤OpenCV，设计⾼精度运算可以⽤GMPY2等，使⽤pip install 安装即可2.2.1 Numpy基本操作

# -*- coding: utf-8 -*-

import numpy as np

# 创建数组

a = np.array([2, 0, 1, 5])

print(a)

print(a[:3]) # 取前三个，切⽚

print(a.min()) # 最⼩值

a.sort() # 升序排列

print(a)

b = np.array([[1, 2, 3], [4, 5, 6]]) # 创建⼆维数组

print(b)

print(b * b) # 输出数组的平⽅

[/code]

### 2.2.2 Pandas简单例⼦

```code

# -*- coding: utf-8 -*-

import pandas as pd

s = pd.Series([1, 2, 3], index=['a', 'b', 'c']) # 创建⼀个序列s

d = pd.DataFrame([[1, 2, 3], [4, 5, 6]], columns=['a', 'b', 'c']) # 创建⼀个表

d2 = pd.DataFrame(s) # 也可以⽤已有的序列来创建表格

print(d.head()) # 预览前5⾏数据

print('==' * 10)

print(d.describe()) # 数据基本统计量

# 读取⽂件，注意⽂件的存储路径不能带有中⽂，否则读取可能出错。

另外，pandas 会频繁读取和写⼊Excel，所以需要安装 xlrd（读取）和 xlwt（写⼊）库，只需要pip install 安装即可。如果没有安装读取Excel会报错，安装命令：pip install xlrd 和 pip install xlwt

2.2.3 Matplotlib作图的基本代码

# -*- coding: utf-8 -*-

import numpy as np

import matplotlib.pyplot as plt

def test1():

x = np.linspace(0, 10, 1000) # 作图的变量⾃变量

y = np.sin(x) + 1 # 因变量y

z = np.cos(x ** 2) + 1 # 因变量z

plt.figure(figsize=(8, 4)) # 设置图像⼤⼩

plt.plot(x, y, label='$\sin x+1$', color='red', linewidth=2) # 作图，设置标签、线条颜⾊、线条⼤⼩

plt.plot(x, z, 'b--', label='$\cos x^2+1$') # 作图，设置标签、线条类型

plt.xlabel('Time(s)') # x轴名称

plt.ylabel('Volt') # y轴名称

plt.title('A Simple Example') # 标题

plt.ylim(0, 2.2) # 显⽰的y轴范围

plt.legend() # 显⽰图例

plt.show() # 显⽰作图结果

def test2():

x = ['1⽉', '2⽉', '3⽉', '4⽉', '5⽉', '6⽉']

y = [20, 10, 30, 25, 15, 18]

plt.bar(x, y, width=0.5, fc='r', tick_label=x)

plt.title('某公司前半年销售额（百万）')

plt.show()

if __name__ == '__main__':

test1()

test2()

[/code]

test1:

![](img-blog.csdnimg/20200816221450686.png?x-oss-

process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2JuZXZlcg==,size_16,color_FFFFFF, t_70)

test2:

![](img-blog.csdnimg/20200816221530957.png?x-oss-

process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2JuZXZlcg==,size_16,color_FFFFFF, t_70)

正常显⽰中⽂参考： [ blog.csdn/qq_42506411/article/details/107414955

](blog.csdn/qq_42506411/article/details/107414955)

# 3、数据探索

## 3.1 数据质量分析

数据质量分析时数据预处理的前提，也是数据挖掘分析结论有效性和准确性的基础。

脏数据指不符合要求、以及不能直接进⾏相应分析的数据，包括如下内容：缺失值、异常值、不⼀致的值、重复数据及含有特殊符号（如#、¥、*）的数据。

### 3.1.1 缺失值分析

数据的缺失主要包括记录的缺失和某个字段信息的缺失。

**1、缺失值产⽣的原因**

* 信息⽆法获取

* 有些信息被遗漏

* 属性值不存在

**2、缺失值的影响**

* 数据挖掘建模将丢失⼤量有⽤信息

* 模型不确定性更显著

* 导致不可靠的输出

**3、缺失值的分析**

使⽤统计分析，得到含有缺失值的属性的个数，以及每个属性的未缺失值数、缺失数与缺失率。

### 3.1.2 异常值分析

异常值值样本中的个别值，其数值明显偏离其余的观测值。异常值也称为离点，异常值的分析也称为离点分析。

* 简单统计量分析

* 3σ原则

* 箱型图分析

**pandas 库使⽤describe()查看数据基本情况**

```code

# -*- coding: utf-8 -*-

688IT编程网

Python数据分析与挖掘实战-基础篇总结(一)1、数据挖掘基础2、

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

Python数据分析与挖掘实战-基础篇总结(一)1、数据挖掘基础2、

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式