0引言
车辆价格的涨跌一直是当下汽车行业的热议话题,尤
其是在新能源汽车出现后,
对传统汽车市场更是有不小影响。对于买家来说,
很多买家清楚自己需要什么性能的车,但对于这种理想车型的价格并没有一个很好的评估标准。
对于卖家来说,
对某些同级别车辆在市场中的价格没有一个很好的参照,
形成了定价困难的局面。也有许多专家和平台会对车辆价格进行人工预测,但结果不够客观准确。
本文基于机器学习以及数据挖掘技术,
利用采集到的车辆特征数据,对车辆进行真实合理的价格预测,该方法成本
低廉且效率较高,
同时,预测结果也能达到较高的精度。1数据描述及预处理
文章的数据来自于开放数据平台Kaggle 上的“汽车及其价格数据”,该数据共有6020条记录,13个特征,
其中包括车辆名称,
发动机排量,里程等车辆基本属性,整个的分析和建模过程都是在python3.9环境中进行,文章采用的编译器是pycharm 。数据的特征汇总如表1所示。
其中,将车辆的Price 设置为模型的标签,
Year ,Kilometers_Driven ,Mileage ,Engine ,Power ,Seats 属于数字型特征,但其中一部分数据包含有字符串在内,所以需要
先将数字与字符串分离,
对Year 这列特征,调用datetime 工具包,用当前时间减去汽车生产的年份,
作为新的特征代替这列。Name ,
Location ,Fuel ,Type ,Transmission ,Owner_Type 属于分类列,考虑到汽车的价格可能和制造
商有关,
先将Name 这一列通过空格分隔,提取出制造商,将汽车制造商单独作为一个分类特征,并且删除原先的
Name 列。分类特征在使用之前应将其转换为虚拟变量,
文章将用特征编码的方式对分类列进行处理,考虑到
New_Price 中缺失值过多,
且已经有Price 作为标签,直接——————————————————————
—作者简介:李博涵(1999-),
男,四川绵阳人,硕士,研究方向为机器学习、
数据挖掘。基于机器学习的车辆价格预测研究
Research on Vehicle Price Prediction Based on Machine Learning
李博涵LI Bo-han
(重庆交通大学机电与车辆工程学院,
重庆400074)(School of Electromechanical and Vehicle Engineering ,Chongqing Jiaotong University ,Chongqing 400074,China )
摘要:随着社会的进步与发展,我国机动车的保有量逐步上升,
与此同时,车辆的交易市场也在逐步扩大。因此,合理对车辆价格进行评估成为车辆交易市场最值得关注的事情。文章通过对不同车型的几类特征使用热力图进行相关性分析并且删除冗余特征,
最后用四种机器学习模型对数据进行预测,
通过一系列量化指标得出预测效果最好的模型。实验结果表明,该模型具有较高的精确度,能够有效预测车辆价格,
同时也能为二手车交易市场提供一定参考。Abstract:With the progress and development of society,the number of motor vehicles in China is gradually rising,and at the same time,the vehicle trading market is also gradually expanding.Therefore,a reasonable evaluation of the vehicle price has become the most noteworthy thing in the vehicle trading market.In this paper,several types of features of different vehicles are analyzed using thermal maps for correlation and redundant features are deleted.Finally,fo
ur machine learning models are used to predict the data,and the model with the best prediction effect is obtained through a series of quantitative indicators.The experimental results show that the model has a high accuracy and can effectively predict the vehicle price,and also provide some reference for the second-hand car market.
关键词:车辆价格;相关性分析;机器学习Key words:car price ;correlation analysis ;machine learning 中图分类号:TP181文献标识码:A 文章编号:1006-4311(2023)01-107-04doi:10.3969/j.issn.1006-4311.2023.01.035
预测结果有更高的准确性,
该结论可为工程成本预测管理提供有效参考。
参考文献:
[1]Viana V.,Ricardo.Using earned value management indexes
as team development factor and a compe factor and a compensation tool[J].Cost engineering,2005,47(5):20-25.
[2]Kim E.,Wells W.G.,and Duffey M.R.A model for effective implementation of Earned Value Management methodology [J].International Journal of Project Management,2003,21(5).
[3]Lipke W.,et al.Prediction of project outcome.2009,27(4):400-407.
[4]赵峰.基于关键路径的挣值分析法的优化研究[J].工业技术
经济,2007(06):59-63.
[5]方志凉,
陈向东.基于关键路径的项目进度挣值分析[J].山西建筑,2008(06):222-224.[6]盛新江.浅论带关键路径的挣值法评价方法[J].技术经济与管理研究,2006(01):49.[7]庄曾.考虑质量因素的模糊挣值方法研究[D].天津大学,
2011.
[8]欧阳红祥,李欣,陈伟伟.基于灰Verhulst 和EVM 模型的项目进度—成本绩效预测研究[J].工程管理学报,2013,27
(03):71-75.
[9]杨小平,韩金伟.项目管理的质量控制———质量挣值[J].管
理观察,2009(09):28-30.[10]熊琴琴.项目挣值管理理论与方法改进研究[D].南开大
学,2010.
表1车辆特征汇总表
Name车辆品牌和名称
Kilometers_Driven Fuel_Type Transmission Owner_Type
Mileage Engine
Power
Seats New_Price
Price
车辆目前为止内行驶的总公里数(以公里为单位)车辆使用的燃料类型(汽油、柴油、
电动、压缩天然气、液化石油气)
车辆使用的变速器类型(自动/手动)
该车辆有几任拥有者
汽车公司提供的标准里程,以公里/千克或公里/千克为单位
车辆发动机的排量(CC)
车辆马力
车辆座位数
车辆最新价格
车辆当前售价
Location
Year
正则化一个五行五列的随机矩阵车辆正在出售或可供购买的位置
车辆的年份或版本
删除这列无用特征。
2相关性分析及可视化
seaborn是一个基于matplotlib开发的一个第三方可
视化库,其中包括的一个函数seaborn.heatmap()热力图,可
以用于展示数据中几组特征的相关系数矩阵,其中相关性
的强弱可以用皮尔逊相关系数来衡量,用两个变量之间的
协方差和标准差的商来表示皮尔逊相关系数,公式如下式
所示:
(1)
公式中,ρ表示相关系数,cov表示协方差,E表示数
学期望。该公式的作用就是表现出两个变量之间的线性关
系强弱,即相关系数越接近1,则说明两个变量之间相关
性越强,越接近-1,则说明两个变量之间负相关性越强,越
接近0,则说明两个变量基本不具有线性相关性[1]。热力图
将所有数字变量之间的相关性汇总展示,通过热力图可以
直观地看到所给数值之间的关系强弱,
从而判断哪些指标
更值得去研究,为训练模型选择特征作为变量做好准备。
车辆不同特征的相关性热力图如图1所示。
由图1可以看出Engine,Power和Price的正相关性
最大,结合实际情况看,发动机排量和马力往往也是人们
评价一辆车性能好坏的重要指标,Mileage和Price的负相
关性最大,相对来说大排量大马力的车辆油耗水平也会很
高,每升油能够行驶的公里数也是一个油耗指标,所以一
般情况下,每升油能够行驶的公里数越少,油耗越高,车辆
的价格也会越高。Kilometers_Driven和Seats对于车辆价
格几乎没有太大影响,但考虑到数据中也包含有二手车信
息,所以先保留这两个特征。
3模型构建及预测
车辆价格预测属于回归类型的模型,文章采用线性回
归,支持向量回归,xgboost,随机森林共四类机器学习模型
对车辆价格进行预测,线性回归是回归算法中最基础的一
种算法,通过对数据中的不同特征添加权重,各类特征与
相对应的权重相乘,在最后加上一个偏置值,通过损失函数
来判断预测值和真实值的拟合程度,数据集共有多个特征,
所以用到的是多元线性回归模型[2]。主要公式如下式所示:
(2)
其中βn是权重,b为偏置值。
支持向量回归属于支持向量机用于回归算法的分支,
支持向量机主要用于解决分类问题,而支持向量回归用于
解决分类问题。支持向量机需要做的一个目标任务到一
条最佳拟合线,使靠超平面最近的样本点之间的间隔最
大,而支持向量回归则是使靠超平面最远的样本点之间的
间隔最大,最佳拟合线是点数最多的超平面。其优点是在
样本量不是海量数据的时候,预测准确率高,泛化能力强,
带松弛变量的SVR的目标函数如下式所示:
(3)
Xgboost是一个集成类算法,基于提升算法做了改进
且和决策树有一定联系,针对传统GBDT算法做了很多细
节的提高,包括损失函数、正则化、切分点查算法优化、
稀疏感知算法、并行化算法设计,其基本原理相当于在子
树的基础上层层添加新的树,成为新的模型。假设有t轮
的预测模型,即t颗树,那么第t+1轮的模型如下式所示:
(4)
其中是i个样本第t轮的模型预测函数,f t(x i)代表
新加入的表达式,而加入的这个新的表达式应该保证能达
到使结果误差更小的要求[3]。
随机森林也是一个集成类算法,相当于将多个决策树
集成到一起,而决策树本身就是一个算法,它将需要分析
的特征通过一个筛选流程,有放回的随机从训练集中选取
样本,同时也随机选取数据的部分特征,每棵决策树使用
的样本和特征都不一样,训练出来的结果也不一样,随机
表2四个模型的四种指标
线性回归支持向量回归xgboost随机森林
MAE RMSE MAPE R22.971
5.283
0.601
0.809
2.049
4.822
0.235
0.520
1.685
3.612
0.245
0.845
1.664
3.584
0.240
0.883
表3优化前后结果对比
MAE RMSE MAPE R方值
调整参数前调整参数后1.664
1.553
3.584
3.472
0.240
0.217
0.883
0.920
图1车辆特征的相关性热力图
森林把不同的决策树结合,其结果是由这个随机森林里面的每一棵树共同决定,随机森林的训练效率高,更适合高维数据的预测[4]。
文章筛选的评价指标主要有四种,平均绝对误差(MAE)、均方根误差(RMSE)平均百分比误差(MAPE)和拟合优度(R2),通过对比以上四个模型的这四种指标,选出预测结果较为准确的模型[5]。4个模型在测试集上表现的性能指标如表2所示。
从表2可以看出随机森林的的四项指标是最好的,所以选择随机森林作为最后的预测模型,n_estimators和
max_depth是随机森林算法中两大最重要的参数,n_estimators代表的含义是森林中树木的数量,即基评估器的数量。这个参数对随机森林模型的精确性影响是单调的,n_estimators越大,模型的预测结果也会变得越精确。但是相应的,不论什么模型都有自己的决策边界,在
n_estimators达到一定的程度之后,该模型的精确性不会再上升很多或开始波动,并且,n_estimators越大,需要的计算量和内存也越大,训练的时间也会越来越长。对于这个参数,需要平衡两头去调整,max_depth表示树的最大深度[3]。最初设置的n_estimators=200,max_depth=8。但为了确保可以到最佳结果,将RMSE值设置为循环目标参数,为了出RMSE的最小值,通过网格搜索遍历,n_estimators的取值范围设置为从10到500,max_depth的取值范围设置为1到16,图2为遍历的结果。
图2
网格搜索调参图
图3
预测值和真实值对比图
通过图2可以知道,在第59次循环时,RMSE 达到最
小值3.472,通过先前设置的循环参数简单计算,
在n_estimators 为100,max_depth 为9,可以使得RMSE 达到该值,重新设定随机森林的两个参数为遍历后得到的这两
个值,将n_estimators 设置为100,
max_depth 设置为9,再次训练模型,
得到范围内最好的结果,将新的结果与先前最对比,
如表3所示。通过表3可以看出,
通过网格搜索调整参数确实让四个指标都有一定能够程度的优化,可以认为n_estimators
为100,max_depth 为9是随机森林模型最好的参数,
能够让模型的预测达到最佳。
下面通过该模型对数据进行训练,通过折线图可视化,对比真实值和预测值之间的误差,如图3所示。
通过折线图可以更加直观地看出,
预测值和真实值的走势大致是相同的,
说明该预测模型有一定参考价值。4结语
文章首先观察数据类型,
对数据进行预处理分析变量相关性等操作,随后用四种机器学习模型对处理好的数据
进行训练,从四个模型的四个指标判断模型优劣,
选择效果最好的模型进行调参,
到范围内最合适的参数,改进模型,最终使得均方根误差仅为3.472,
平均百分比误差仅为0.21%,说明文章建立的模型具有较高的准确性,文章的结果可以给有车辆需求的买家提供购买参照,
为车辆交易市场提供一些进价和出价的引导,
相关部门可以根据车辆某些重要特征的数值,对车辆的定价进行更合理的评估,
同时也能为二手车市场提供价格参考。参考文献:
[1]纪德洋,
金锋,冬雷,等.基于皮尔逊相关系数的光伏电站数据修复[J].中国电机工程学报,2022,42(04):1514-1523.
[2]戴源,谢继征,袁静,等.紫外光诱导荧光分析仪结合多元线性回归算法在城市河流常规污染指标监测中的应用[J].环境监控与预警,2021,13(02):29-34.
[3]王献志,曾四鸣,周雪青,等.基于XGBoost 联合模型的光伏发电功率预测[J].太阳能学报,2022,43(04):236-242.
[4]闫广华,陈曦,张云.基于随机森林模型的东北地区收缩城市分布格局及影响因素研究[J].地理科学,2021,41(05):880-889.
[5]李彬,杜丁香,王兴国,等.基于平均绝对误差的海上风电经柔直送出系统交流海缆纵联保护[J].电测与仪表,2022,59(06):122-129.
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论