【机器学习入门】(3)朴素贝叶斯算法:多项式、高斯、伯努利,实例应用(心...--688IT编程网

【机器学习⼊门】（3）朴素贝叶斯算法：多项式、⾼斯、伯努利，实例应⽤（⼼脏病预测）附pyt。。。

各位同学好，今天我和⼤家分享⼀下朴素贝叶斯算法中的三⼤模型。在上⼀篇⽂章中，我介绍了朴素贝叶斯算法的原理，并利⽤多项式模型进⾏了⽂本分类预测。

下⾯，我将对朴素贝叶斯算法进⾏补充，并通过案例⼼脏病预测向各位进⼀步说明。案例简介：有300多个⼼脏病样本数据，每个样本有13个特征（如：胆固醇、⼼跳率等），1个⽬标（即是否得了⼼脏病）。使⽤朴素贝叶斯⾼斯⽅法，建⽴⼼脏病预测模型。

1. 朴素贝叶斯模型

对于不同的数据，我们有不同的朴素贝叶斯模型进⾏分类。

1.1 多项式模型

（1）如果特征是离散型数据，⽐如⽂本这些，推荐使⽤多项式模型来实现。该模型常⽤于⽂本分类，特别是单词，统计单词出现的次数。调⽤⽅法：from sklearn.naive_bayes import MultinomialNB

1.2 ⾼斯模型

（2）如果特征是连续型数据，⽐如具体的数字，推荐使⽤⾼斯模型来实现，⾼斯模型即正态分布。当特征是连续变量的时候，运⽤多项式模型就会导致很多误差，此时即使做平滑，所得到的条件概率也难以描述真实情况。所以处理连续的特征变量，应该采⽤⾼斯模型。

调⽤⽅法：from sklearn.naive_bayes import GaussianNB

1.3 伯努利模型

（3）如果特征是离散性数据并且值只有0和1两种情况，推荐使⽤伯努利模型。在伯努利模型中，每个特征的取值是布尔型的，即True和False，或者1和0。在⽂本分类中，表⽰⼀个特征有没有在⼀个⽂档中出现。

调⽤⽅法： from sklearn.naive_bayes import BernoulliNB

2. ⼼脏病预测

2.1 数据获取

获取⼼脏病的病例数据，共13项特征值，300多条数据。⽂末提供数据链接。

#（1）导⼊⼼脏病数据

import pandas as pd

filepath = 'C:\\Users\\admin\\.spyder-py3\\test\\⽂件处理\\⼼脏病\\heart.csv'

data = pd.read_csv(filepath)

2.2 数据处理

⾸先将导⼊的数据重新洗牌，⾏数据之间随机交换。然后将原始数据拆分成特征值和⽬标值，特征参数是：胆固醇、年龄等13项数据，⽬标为target这⼀列，即是否得了⼼脏病。为了验证最后预测结果的正确性，取最后10⾏数据⽤于模型验证，验证集的特征值数据⽤于输⼊最终的预测函数.predict()中，验证集的⽬标值来检验预测结果是否正确。提取出验证集之后，将⽤于建模的特征值和⽬标值删除最后10⾏即可。

#（2）数据处理

# 重新洗牌，⾏互换后，让索引从0开始

data = data.sample(frac=1).reset_index(drop=True)

# 提取⽬标值target⼀列

data_target = data['target']

# 提取⽬标值

data_feature = data.drop('target',axis=1)

# 取出最后10⾏作为验证集

data_predict_feature = data_feature[-10:] #作为最后预测函数的输⼊

data_predict_target = data_target[-10:] #⽤来验证预测输出结果的正确性

# 建模⽤的特征值和⽬标值删去最后10⾏

data_feature = data_feature[:-10] #x数据

data_target = data_target[:-10] #y数据

2.3 划分训练集和测试集

⼀般采⽤75%的数据⽤于训练，25%⽤于测试，因此把数据进⾏训练之前，先要对数据划分。

划分⽅式：

x_train,x_test,y_train,y_test = train_test_split(x数据,y数据,test_size=数据占⽐)

有关划分划分训练集和测试集的具体操作，包括参数、返回值等，点击下⽂链接的看第3.1⼩节：

#（3）划分训练集和测试集

del_selection import train_test_split

x_train,x_test,y_train,y_test = train_test_split(data_feature,data_target,test_size=0.25)

2.4 使⽤朴素贝叶斯⾼斯模型

⼼脏病数据中⼤多是连续型数据，少数是0、1离散型数据，因此先采⽤⾼斯模型进⾏训练，然后再采⽤多项式模型训练，对⽐这两种⽅法的准确率。

#（4）⾼斯模型训练

# 导⼊朴素贝叶斯--⾼斯模型⽅法

from sklearn.naive_bayes import GaussianNB

# gauss_nb接收⾼斯⽅法

gauss_nb = GaussianNB()

# 模型训练，输⼊训练集

gauss_nb.fit(x_train,y_train)

# 计算准确率--评分法

gauss_accuracy = gauss_nb.score(x_test,y_test)

# 预测

gauss_result = gauss_nb.predict(data_predict_feature)

导⼊⾼斯模型⽅法，gauss_nb接收该⽅法；使⽤.fit()函数进模型训练；采⽤.score()函数⽤评分法查看模型准确率，根据x_test预测结果，把结果和真实的y_test⽐较，计算准确率；最终将验证集的特征值传⼊.predict()函数预测是否得了⼼脏病，将最终预测结果与真实值⽐较，发现有少许偏差，模型准确率在0.83左右。

2.5 使⽤朴素贝叶斯多项式模型

⼼脏病数据中存在少量的离散数据，实际操作中多项式模型不适⽤于该案例，我使⽤多项式模型和⾼斯模型进⾏⽐较，让⼤家优个直观感受。操作⽅法和⾼斯模型类似，在此不做过多叙述，有不明⽩的可以参考上⼀篇⽂章：

#（5）多项式模型训练

# 导⼊朴素贝叶斯--多项式⽅法

from sklearn.naive_bayes import MultinomialNB

# multi_nb接收多项式⽅法

安卓开发实例入门

multi_nb = MultinomialNB()

# 多项式⽅法进⾏训练，输⼊训练集

multi_nb.fit(x_train,y_train)

# 评分法计算准确率

multi_accuracy = multi_nb.score(x_test,y_test)

# 预测

multi_result = multi_nb.predict(data_predict_feature)

最终的结果为，多项式模型的准确率在0.75左右，预测结果和实际结果相⽐偏差较⼤，因此在使⽤朴素贝叶斯⽅法，对有较多连续型数据进⾏分类预测时，⾼斯模型的准确度明显⾼于多项式模型。

⼼脏病数据集⾃取：链接：提取码：a9wl 完整代码展⽰：

# 朴素贝叶斯⾼斯模型⼼脏病预测

#（1）导⼊⼼脏病数据

import pandas as pd

filepath = 'C:\\Users\\admin\\.spyder-py3\\test\\⽂件处理\\⼼脏病\\heart.csv'

data = pd.read_csv(filepath)

#（2）数据处理

# 重新洗牌，⾏互换后，让索引从0开始

data = data.sample(frac=1).reset_index(drop=True)

# 提取⽬标值target⼀列

data_target = data['target']

# 提取⽬标值

data_feature = data.drop('target',axis=1)

# 取出最后10⾏作为验证集

data_predict_feature = data_feature[-10:] #作为最后预测函数的输⼊

data_predict_target = data_target[-10:] #⽤来验证预测输出结果的正确性

# 建模⽤的特征值和⽬标值删去最后10⾏

data_feature = data_feature[:-10] #x数据

data_target = data_target[:-10] #y数据

#（3）划分训练集和测试集

del_selection import train_test_split

x_train,x_test,y_train,y_test = train_test_split(data_feature,data_target,test_size=0.25)

#（4）⾼斯模型训练

# 导⼊朴素贝叶斯--⾼斯模型⽅法

from sklearn.naive_bayes import GaussianNB

# gauss_nb接收⾼斯⽅法

gauss_nb = GaussianNB()

# 模型训练，输⼊训练集

gauss_nb.fit(x_train,y_train)

# 计算准确率--评分法

gauss_accuracy = gauss_nb.score(x_test,y_test)

# 预测

gauss_result = gauss_nb.predict(data_predict_feature)

#（5）多项式模型训练

# 导⼊朴素贝叶斯--多项式⽅法

from sklearn.naive_bayes import MultinomialNB

# multi_nb接收多项式⽅法

multi_nb = MultinomialNB()

# 多项式⽅法进⾏训练，输⼊训练集

multi_nb.fit(x_train,y_train)

# 评分法计算准确率

multi_accuracy = multi_nb.score(x_test,y_test)

# 预测

multi_result = multi_nb.predict(data_predict_feature)

688IT编程网

【机器学习入门】(3)朴素贝叶斯算法:多项式、高斯、伯努利,实例应用(心...

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

【机器学习入门】(3)朴素贝叶斯算法:多项式、高斯、伯努利,实例应用(心...

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式