【项⽬实战】基于Python实现随机森林分类模型
(RandomForestClassifi。。。
说明:这是⼀个机器学习实战项⽬(附带数据+代码),如需数据+完整代码可以直接到⽂章最后获取。
1.项⽬背景
⾼质量的产品不仅能很好地满⾜顾客对产品使⽤功能的需要,获得良好的使⽤体验,提升企业形象和商誉,同时能为企业减少售后维修成本,增加利润。燃⽓灶市场已成为继家电市场之后各⼤电器公司竞争的新战场。某电器公司的燃⽓灶产品销售额⼀直在国内处于领先地位,把产品质量视为重中之重,每年都要对其产品质量数据进⾏分析研究,以期不断完善,精益求精。
2.获取数据
本次建模数据来源于某电器公司某⽉燃⽓灶质量情况统计数据,记录到的燃⽓灶故障现象均为“打不着⽕”,其主要的数据基本统计概况如下:
特征变量数:8
数据记录数:1245
是否有NA值:否
是否有异常值:否
去除异常值和NA值后的数据共计1245条,其特征变量详情如下:
(1)机型:代表所售燃⽓灶的型号,共计204个型号。
(2)故障代码:代表燃⽓灶维修部分的记录,分别代表故障模式、故障模式细分、维修⽅式、故障名称等。
(3)故障模式:表⽰燃⽓灶故障的基本情况,分为“微动开关坏”、“热电偶坏”、“电极针坏”、“电磁阀坏”、“脉冲器坏”等5种。
(4)故障模式细分:根据故障基本情况,故障类型⼜细分为“开裂”、“变形”、“⽼化”、“调整电极针位置”、“热电偶与电磁阀接触不良”等5种。
(5)维修⽅式:根据不同燃⽓灶的具体情况,采⽤的维修⽅式分为“更换”和“未更换”2种。
(6)故障名称:根据购买和维修之间的时间跨度,分为“保内”和“保外”两种。
(7)分公司:共有61个分公司负责销售和维修。
(8)单据类型:针对具体情况,每个维修单类型分为“调试”、“维修”、“改⽓源”、“其它”等4种。
3.数据预处理
真实数据中可能包含了⼤量的缺失值和噪⾳数据或⼈⼯录⼊错误导致有异常点存在,⾮常不利于算法模型的训练。数据清洗的结果是对各种脏数据进⾏对应⽅式的处理,得到标准的、⼲净的、连续的数据,提供给数据统计、数据挖掘等使⽤。数据预处理通常包含数据清洗、归约、聚合、转换、抽样等⽅式,数据预处理质量决定了后续数据分析挖掘及建模⼯作的精度和泛化价值。以下简要介绍数据预处理⼯作中主要的预处理⽅法:
3.1导⼊程序库并读取数据
(1)导⼊程序库:将所⽤到的程序库导⼊到Python程序中,如图所⽰。
图程序库导⼊代码
(2)读取数据:使⽤Pandas库中read_excel⽅法读取Excel数据,并转为DataFrame类型。读取数据代码如图所⽰:
3.2数据校验和处理
通过对原始数据审查和校验,了解数据基本分布、数值类型,处理数据中异常值和缺失值等情况。
(1)数据替换:原始数据中均以⽂字记录各项信息,需将⽂字信息替换成对应的数字代码,⽅便后期数据挖掘和分析⼯作。根据故障代码,详细的替换内容如下:
a)故障模式中,将“微动开关坏”、“热电偶坏”、“电极针坏”、“电磁阀坏”、“脉冲器坏”分别替换为“1”、“2”、“3”、“4”、“5”。
b)故障模式细分中,将“开裂”、“变形”、“⽼化”、“调整电极针位置”、“热电偶与电磁阀接触不良”分别替换为“1”、“2”、“3”、“4”、“5”。
c)维修⽅式中,将“更换”和“未更换”分别替换为“1”、“2”。
d)故障名称中,将“保内”、“保外”分别替换为“1”、“2”。
e)单据类型中,将“调试”、“维修”、“改⽓源”、“其它”分别替换为为“1”、“2”、“3”、“4”。
使⽤Python代码将数据完成替换,图为替换部分代码。
(2)数据缺失和异常处理:原始数据存在购买⽇期异常,购买⽇期记录为1930年,但数据特征变量依然不存在缺失值,异常情况如图所⽰。
图数据异常和缺失情况
通过数据预处理、离散化之后,得到⼲净的燃⽓灶维系记录信息,如图所⽰。
图 经过预处理后的数据
(3)数据概览:本部分通过代码对数据进⾏审查,检查各部分数据类型和数据缺失情况,其数据类型和缺失情况如图所⽰,处理后的数据不含缺失值。
4.探索性数据分析
4.1数据分析
(1)机型数量分析:在1245条维修记录中,共有209个燃⽓灶型号。其中,机型为JZT-7B13、JZT.2-9B13、JZT.2-7G02的燃⽓灶数量最多,分别有167条、102条和95条记录,分别占⽐14,1%、8.61%、7.67%。
(2)故障分析:在维修记录中不同部件维修数量不同,其中“电极针坏”的数量占⽐最多,占全部维修记录的57.43%。“热电偶坏”和“电磁阀坏”的占⽐次之,分别为21.12%和11.33%。图8为绘制统计图的Python代码,图为故障模式各项占⽐统计图。
图 绘制统计图的Python代码
图 故障模式各项统计图
5种故障模式⼜分别细分为5项:“开裂”、“变形”、“⽼化”、“调整电极针位置”、“热电偶与电磁阀接触不良”,分别对5项故障模式统计细分故障模式,统计故障模式细分的Python如图所⽰,统计结果如图所⽰。
图 故障模式细分统计
图中按顺序分别对应“微动开关坏”、“热电偶坏”、“电极针坏”、“电磁阀坏”、“脉冲器坏”等5种故障模式。故障模式中出现“开裂”、“⽼化”、“变形”的细分故障最多。
根据燃⽓灶的5种故障模式,统计各种故障状态的维修⽅式,统计是否需要更换部件,Python统计维修⽅式的代码如图所⽰,其统计结果如图所⽰。仅当“微动开关坏”时,“未更换”部件的占⽐⾼与“更换”部件,其余4种故障模式下,“更换”部件占⽐均⾼与“未更换”。
4.2相关性分析
从上⾯相关性热⼒图可以看出,故障模式细分与维护⽅式为0.6,这个属性相关性⽐较强,其它都在0.3以下,相关性不强。
关键代码:
random python5.特征⼯程
根据燃⽓灶维修记录,通过训练机器学习模型,使之可以根据燃⽓灶维修记录和是否在保信息,判断
所维修的燃⽓灶是否需要更换故障零件,以期达到动态管理常见故障零部件仓储和调配,减少后续维修⼯作成本,增加⼚商利润。
在机器学习模型建⽴过程中,需要有⾜够的数据⽤与模型训练和测试。⽤于机器学习的数据集⼀般需被划分为“训练集”和“验证集”。训练集数据⽤于模型训练,调整模型的参数;验证集数据⽤于验证模型性能,评估模型分类的准确度。训练集数据和验证集数据之间互斥。
原始数据经过预处理后,剩余⼲净数据1245条,有4类主要的特征变量:“故障模式”、“故障模式细分”、“维修⽅式”和“故障名称”。
5.1哑特征处理
在此数据中,特征变量中故障名称、单据类型的数值为⽂本类型,不符合机器学习数据要求,需要进⾏哑特征处理,变为0 1数值。另外,故障模式、故障模式细分的数值为1、2、3、4、5,在建模时会当成数字进⾏处理,需要进⾏哑变量处理,转成0 1数值。
处理前:
处理后:
关键代码:
5.2 建⽴特征数据和标签数据
维修⽅式 为标签数据,除 维修⽅式 之外的为特征数据。关键代码如下:

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。