Python数据分析与挖掘实战-基础篇总结(⼀)1、数据挖掘基础2、python数据
分析简。。。
⽬录
1、数据挖掘基础
1.1 数据挖掘的基本任务:
1.2数据挖掘建模过程:
1.3常⽤的数据挖掘建模⼯具
2、python数据分析简介
2.1 python环境搭建
2.2 python数据分析第三⽅库
2.2.1 Numpy基本操作
2.2.2 Pandas简单例⼦
3、数据探索
3.1 数据质量分析
3.1.1 缺失值分析
3.1.2 异常值分析
3.1.3 ⼀致性分析
3.2 数据特征分析
3.2.1 分布分析
3.2.2 对⽐分析
3.2.3 统计量分析
3.2.4 周期性分析
3.2.5 贡献度分析
3.2.6 相关性分析
3.3 Python主要数据探索函数
3.3.1 基本统计特征函数
3.3.2 拓展统计特征函数
3.3.3 统计作图函数
1、数据挖掘基础
1.1 数据挖掘的基本任务:
数据挖掘的基本任务包括利⽤分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等⽅法,帮助企业提取数据中蕴含的商业价值,提⾼企业竞争⼒。
1.2数据挖掘建模过程:
1、⽬标定义
任务理解
指标确定
2、数据采集
建模抽样
质量把控
实时采集
3、数据整理
数据探索
数据清洗
数据变换-预处理
4、构建模型
模式发现
构建模型
验证模型
5、模型评价
设定模型评价标准
多模型对⽐
模型优化
6、模型发布
模型部署
模型重构
1.3常⽤的数据挖掘建模⼯具
SAS Enterprise Miner
IBM SPSS Modeler
SQL Server
Python
WEKA
KNIME
linspace函数pythonRapidMiner
TipDM
2、python数据分析简介2.1 python环境搭建略·········
2.2 python数据分析第三⽅库
库
|
简介
—|---
Numpy
|
提供数组⽀持,以及相应的⾼效的处理函数
Pandas
|
强⼤,灵活的数据分析和探索⼯具
Matplotlib
|
强⼤的数据可视化⼯具、作图库
Scipy
|
提供矩阵⽀持,以及矩阵相关的数值计算模块
StatsModels
|
统计建模和计量经济学,包括描述统计、统计建模估计和推断
Scikit-Learn
|
⽀持回归、分类、聚类等强⼤的机器学习库
Keras
|
深度学习库,⽤于建⽴神经⽹络以及深度学习模型
Gensim
|
⽤来做⽂本主题模型的库,⽂本挖掘可能⽤到
涉及图⽚处理可以⽤Pillow,涉及视频处理可以⽤OpenCV,设计⾼精度运算可以⽤GMPY2等,使⽤pip install 安装即可2.2.1 Numpy基本操作
# -*- coding: utf-8 -*-
import numpy as np
# 创建数组
a = np.array([2, 0, 1, 5])
print(a)
print(a[:3]) # 取前三个,切⽚
print(a.min()) # 最⼩值
a.sort() # 升序排列
print(a)
b = np.array([[1, 2, 3], [4, 5, 6]]) # 创建⼆维数组
print(b)
print(b * b) # 输出数组的平⽅
[/code]
### 2.2.2 Pandas简单例⼦
```code
# -*- coding: utf-8 -*-
import pandas as pd
s = pd.Series([1, 2, 3], index=['a', 'b', 'c']) # 创建⼀个序列s
d = pd.DataFrame([[1, 2, 3], [4, 5, 6]], columns=['a', 'b', 'c']) # 创建⼀个表
d2 = pd.DataFrame(s) # 也可以⽤已有的序列来创建表格
print(d.head()) # 预览前5⾏数据
print('==' * 10)
print(d.describe()) # 数据基本统计量
# 读取⽂件,注意⽂件的存储路径不能带有中⽂,否则读取可能出错。
另外,pandas 会频繁读取和写⼊Excel,所以需要安装 xlrd(读取)和 xlwt(写⼊)库,只需要pip install 安装即可。如果没有安装读取Excel会报错,安装命令:pip install xlrd 和 pip install xlwt
2.2.3 Matplotlib作图的基本代码
# -*- coding: utf-8 -*-
import numpy as np
import matplotlib.pyplot as plt
def test1():
x = np.linspace(0, 10, 1000) # 作图的变量⾃变量
y = np.sin(x) + 1 # 因变量y
z = np.cos(x ** 2) + 1 # 因变量z
plt.figure(figsize=(8, 4)) # 设置图像⼤⼩
plt.plot(x, y, label='$\sin x+1$', color='red', linewidth=2) # 作图,设置标签、线条颜⾊、线条⼤⼩
plt.plot(x, z, 'b--', label='$\cos x^2+1$') # 作图,设置标签、线条类型
plt.xlabel('Time(s)') # x轴名称
plt.ylabel('Volt') # y轴名称
plt.title('A Simple Example') # 标题
plt.ylim(0, 2.2) # 显⽰的y轴范围
plt.legend() # 显⽰图例
plt.show() # 显⽰作图结果
def test2():
x = ['1⽉', '2⽉', '3⽉', '4⽉', '5⽉', '6⽉']
y = [20, 10, 30, 25, 15, 18]
y = [20, 10, 30, 25, 15, 18]
plt.bar(x, y, width=0.5, fc='r', tick_label=x)
plt.title('某公司前半年销售额(百万)')
plt.show()
if __name__ == '__main__':
test1()
test2()
[/code]
test1:
![](img-blog.csdnimg/20200816221450686.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2JuZXZlcg==,size_16,color_FFFFFF, t_70)
test2:
![](img-blog.csdnimg/20200816221530957.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2JuZXZlcg==,size_16,color_FFFFFF, t_70)
正常显⽰中⽂参考: [ blog.csdn/qq_42506411/article/details/107414955
](blog.csdn/qq_42506411/article/details/107414955)
# 3、数据探索
## 3.1 数据质量分析
数据质量分析时数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础。
脏数据指不符合要求、以及不能直接进⾏相应分析的数据,包括如下内容:缺失值、异常值、不⼀致的值、重复数据及含有特殊符号(如#、¥、*)的数据。
### 3.1.1 缺失值分析
数据的缺失主要包括记录的缺失和某个字段信息的缺失。
**1、缺失值产⽣的原因**
* 信息⽆法获取
* 有些信息被遗漏
* 属性值不存在
**2、缺失值的影响**
* 数据挖掘建模将丢失⼤量有⽤信息
* 模型不确定性更显著
* 导致不可靠的输出
**3、缺失值的分析**
使⽤统计分析,得到含有缺失值的属性的个数,以及每个属性的未缺失值数、缺失数与缺失率。
### 3.1.2 异常值分析
异常值值样本中的个别值,其数值明显偏离其余的观测值。异常值也称为离点,异常值的分析也称为离点分析。
* 简单统计量分析
* 3σ原则
* 箱型图分析
**pandas 库使⽤describe()查看数据基本情况**
```code
# -*- coding: utf-8 -*-
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论