《Python数据分析与挖掘实战》第五章案例代码总结与修改分析--688IT编程网

《Python数据分析与挖掘实战》第五章案例代码总结与修改分析第五章案例代码总结与修改分析

【有问题或错误，请私信我将及时改正；借鉴⽂章标明出处，谢谢】

每个案例代码全部为书中源代码，出现错误按照每个案例下⾯给出的代码错误，原因，及怎样修改进⾏修改即可解决每个案例错误5-1

import pandas as pd

filename = 'F:/⼤⼆下合集/Python数据分析与挖掘/bankloan.xls'

data = pd.read_excel(filename)

x = data.iloc[:,:8].as_matrix()

y = data.iloc[:,8].as_matrix()

from sklearn.linear_model import LogisticRegression as LR

from sklearn.linear_model import RandomizedLogisticRegression as RLR

rlr = RLR() #建⽴随机逻辑回归模型，筛选变量

rlr.fit(x, y) #训练模型

<_support() #获取特征筛选结果，也可以通过.scores_⽅法获取各个特征的分数

print(u'通过随机逻辑回归模型筛选特征结束。')

print(u'有效特征为：%s' % ','._support(8)]))

x = _support()]].as_matrix() #筛选好特征

lr = LR() #建⽴逻辑回归模型

lr.fit(x, y) #⽤筛选后的特征数据来训练模型

print(u'逻辑回归模型训练结束。')

python怎么读取excel的数据

print(u'模型的平均正确率为：%s' % lr.score(x, y)) #给出模型的平均正确率，本例为81.4%

报错1：

AttributeError: 'DataFrame' object has no attribute 'as_matrix'

报错原因：属性错误：“DataFrame”对象没有属性“reshape”

解决⽅法：“DataFrame”对象没有，但是DataFrame.values有该⽅法

将.as_matrix()改为.values

第⼀次改为了.values() 出错：

TypeError: 'numpy.ndarray' object is not callable

报错原因：.values，它是dataframe类对象的⼀个属性，不是⽅法

第⼆次改为.values没报错了

报错2：

ImportError: cannot import name 'RandomizedLogisticRegression'

问题语句：

from sklearn.linear_model import RandomizedLogisticRegression

查原因：

⼀个博客中写道了这个问题

查得sklearn(版本0.21.3)的linear_model⽂件夹下⾯已经没有randomized_l1.py⽂件，⽽RandomizedLogisticRegression就在该⽂件内。RandomizedLogisticRegression已经被移出sklearn包，移到了 scikit-learn-contrib/stability-selection中，提取的stability-selection安装过程(后两步需要cd到对应⽂件的路径下⾯运⾏)：

git clone github/scikit-learn-contrib/stability-selection.git

pip install -

python setup.py install

在执⾏第三个命令有报错：

error: [WinError 32] 另⼀个程序正在使⽤此⽂件，进程⽆法访问。: 'd:\\python\\miniconda3_py3.6_x64_jb51\\lib\\site-packages\\stability_selection-0.0.1-py3.

这个问题到你的这个⽬录下的这个⽂件“tability_selection-0.0.”发现他是⼀个压缩包，把他解压后删除这个压缩包，⼀般解压后就没有后缀了即⽂件名字就是：“tability_selection-0.0.1-py3.6”给他修改名字最后添加上”.egg”，再次运⾏没有错误了

安装后运⾏将刚报错的代码改为下⾯代码：

from stability_selection.randomized_lasso import RandomizedLogisticRegression

没有报错，import正常。

确实按照这个博客写完没报错出现了第三个问题

报错3：

AttributeError: 'RandomizedLogisticRegression' object has no attribute 'get_support'

解决问题到了这⾥我开始了迷茫，经过⼏天的百度与版本更替实验还是未能成功解决。那么换个思路，想把例⼦整体理解吃透，之后慢慢了解了这个各个版本不管是sklearn或是panda、tensorflow等等，它们在升级之后做了什么改动，那么再回过头来看这个例⼦错误就容易解决了。所以5-1这个例⼦暂时没有得到解决，等我解决会进⾏添加解决的步骤。

5-2

#-*- coding: utf-8 -*-

import pandas as pd

inputfile = 'F:/⼤⼆下合集/Python数据分析与挖掘/sales_data.xls'

data = pd.read_excel(inputfile, index_col=u'序号')

data[data == u'好'] = 1

data[data == u'是'] = 1

data[data == u'⾼'] = 1

data[data != 1] = -1

x = data.iloc[:, :3].as_matrix().astype(int)

y = data.iloc[:, 3].as_matrix().astype(int)

import DecisionTreeClassifier as DTC

dtc = DTC(criterion='entropy')

dtc.fit(x, y)

import export_graphviz

als.six import StringIO

with open("tree.dot", 'w') as f:

f = export_graphviz(dtc, feature_lumns, out_file=f)

代码报错：

第⼀个错误原因：

x = data.iloc[:, :3].as_matrix().astype(int)

y = data.iloc[:, 3].as_matrix().astype(int)

修改为：

x = data.iloc[:, :3].values.astype(int)

y = data.iloc[:, 3].values.astype(int)

第⼆个错误原因：

f = export_graphviz(dtc, feature_lumns, out_file=f)

修改为：

应该在with open(“tree.dot”, ‘w’) as f：这⾏之前添加下⾯这句

x = pd.DataFrame(x)

在⽬录下会有tree.dot⽂本⽂件

我们需要下载Graphviz(跨平台的、基于命令⾏的绘图⼯具)，然后在命令⾏进⾏编译

5-3

#-*- coding: utf-8 -*-

#使⽤神经⽹络算法预测销量⾼低

import pandas as pd

#参数初始化

inputfile = 'F:/⼤⼆下合集/Python数据分析与挖掘/sales_data.xls'

data = pd.read_excel(inputfile, index_col = u'序号') #导⼊数据

#数据是类别标签，要将它转换为数据

#⽤1来表⽰“好”、“是”、“⾼”这三个属性，⽤0来表⽰“坏”、“否”、“低”

data[data == u'好'] = 1

data[data == u'是'] = 1

data[data == u'⾼'] = 1

data[data != 1] = 0

x = data.iloc[:,:3].as_matrix().astype(int)

y = data.iloc[:,3].as_matrix().astype(int)

dels import Sequential

from import Dense, Activation

model = Sequential() #建⽴模型

model.add(Dense(input_dim = 3, output_dim = 10))

model.add(Activation('relu')) #⽤relu函数作为激活函数，能够⼤幅提供准确度

model.add(Dense(input_dim = 10, output_dim = 1))

model.add(Activation('sigmoid')) #由于是0-1输出，⽤sigmoid函数作为激活函数

modelpile(loss = 'binary_crossentropy', optimizer = 'adam', class_mode = 'binary')

#编译模型。由于我们做的是⼆元分类，所以我们指定损失函数为binary_crossentropy，以及模式为binary #另外常见的损失函数还有mean_squared_error、categorical_crossentropy等，请阅读帮助⽂件。

#求解⽅法我们指定⽤adam，还有sgd、rmsprop等可选

model.fit(x, y, nb_epoch = 1000, batch_size = 10) #训练模型，学习⼀千次

yp = model.predict_classes(x).reshape(len(y)) #分类预测

from cm_plot import * #导⼊⾃⾏编写的混淆矩阵可视化函数

cm_plot(y,yp).show() #显⽰混淆矩阵可视化结果

代码错误：

原因：

modelpile(loss = 'binary_crossentropy', optimizer = 'adam', class_mode = 'binary')

解决：

删除这⾏中的参数class_mode=“binary”

即：

modelpile(loss = 'binary_crossentropy', optimizer = 'adam')

之后还有⼀个错误这⾥的错误图没了，听我⼝述即可，他会报错不到cm_plot

原因：

cm_plot是个⾃定义函数，你还没有这个函数

解决：

添加⾃定义cm_plot函数，函数内容如下：

#-*- coding: utf-8 -*-

def cm_plot(y, yp):

ics import confusion_matrix #导⼊混淆矩阵函数

cm = confusion_matrix(y, yp) #混淆矩阵

import matplotlib.pyplot as plt #导⼊作图库

plt.matshow(cm, Greens) #画混淆矩阵图，配⾊风格使⽤cm.Greens，更多风格请参考官⽹。 lorbar() #颜⾊标签

for x in range(len(cm)): #数据标签

for y in range(len(cm)):

plt.annotate(cm[x,y], xy=(x, y), horizontalalignment='center', verticalalignment='center')

plt.ylabel('True label') #坐标轴标签

plt.xlabel('Predicted label') #坐标轴标签

return plt

将⾃定义好的函数放⼊到你python环境下site-packages中，如下图

688IT编程网

《Python数据分析与挖掘实战》第五章案例代码总结与修改分析

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林特征选择原理

自动驾驶系统中的随机森林算法解析

随机森林算法及其在生物信息学中的应用

监督学习中的随机森林算法解析(六)

随机森林算法在数据分析中的应用

机器学习——随机森林,RandomForestClassifier参数含义详解

随机森林的算法

随机森林算法作用

监督学习中的随机森林算法解析(十)

随机森林算法案例

随机森林案例

二分类问题常用的模型

绘制ssd框架训练流程

一种基于信息熵和DTW的多维时间序列相似性度量算法

SVM训练过程范文

如何使用支持向量机进行股票预测与交易分析

二分类交叉熵损失函数binary

tinybert_训练中文文本分类模型_概述说明

基于门控可形变卷积和分层Transformer的图像修复模型及其应用

人工智能开发技术的测试和评估方法

最新文章

基于随机森林的数据分类算法改进

人工智能中的智能识别与分类技术

基于人工智能技术的随机森林算法在医疗数据挖掘中的应用

随机森林回归模型的建模步骤

r语言随机森林预测模型校准曲线

《2024年随机森林算法优化研究》范文

标签列表

688IT编程网

《Python数据分析与挖掘实战》第五章案例代码总结与修改分析

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林特征选择原理

自动驾驶系统中的随机森林算法解析

随机森林算法及其在生物信息学中的应用

监督学习中的随机森林算法解析(六)

随机森林算法在数据分析中的应用

机器学习——随机森林,RandomForestClassifier参数含义详解

随机森林 的算法

随机森林算法作用

监督学习中的随机森林算法解析(十)

随机森林算法案例

随机森林案例

二分类问题常用的模型

绘制ssd框架训练流程

一种基于信息熵和DTW的多维时间序列相似性度量算法

SVM训练过程范文

如何使用支持向量机进行股票预测与交易分析

二分类交叉熵损失函数binary

tinybert_训练中文文本分类模型_概述说明

基于门控可形变卷积和分层Transformer的图像修复模型及其应用

人工智能开发技术的测试和评估方法

最新文章

基于随机森林的数据分类算法改进

人工智能中的智能识别与分类技术

基于人工智能技术的随机森林算法在医疗数据挖掘中的应用

随机森林回归模型的建模步骤

r语言随机森林预测模型校准曲线

《2024年随机森林算法优化研究》范文

标签列表

随机森林的算法