基于机器学习的车辆价格预测研究--688IT编程网

0引言

车辆价格的涨跌一直是当下汽车行业的热议话题，尤

其是在新能源汽车出现后，

对传统汽车市场更是有不小影响。对于买家来说，

很多买家清楚自己需要什么性能的车，但对于这种理想车型的价格并没有一个很好的评估标准。

对于卖家来说，

对某些同级别车辆在市场中的价格没有一个很好的参照，

形成了定价困难的局面。也有许多专家和平台会对车辆价格进行人工预测，但结果不够客观准确。

本文基于机器学习以及数据挖掘技术，

利用采集到的车辆特征数据，对车辆进行真实合理的价格预测，该方法成本

低廉且效率较高，

同时，预测结果也能达到较高的精度。1数据描述及预处理

文章的数据来自于开放数据平台Kaggle 上的“汽车及其价格数据”，该数据共有6020条记录，13个特征，

其中包括车辆名称，

发动机排量，里程等车辆基本属性，整个的分析和建模过程都是在python3.9环境中进行，文章采用的编译器是pycharm 。数据的特征汇总如表1所示。

其中，将车辆的Price 设置为模型的标签，

Year ，Kilometers_Driven ，Mileage ，Engine ，Power ，Seats 属于数字型特征，但其中一部分数据包含有字符串在内，所以需要

先将数字与字符串分离，

对Year 这列特征，调用datetime 工具包，用当前时间减去汽车生产的年份，

作为新的特征代替这列。Name ，

Location ，Fuel ，Type ，Transmission ，Owner_Type 属于分类列，考虑到汽车的价格可能和制造

商有关，

先将Name 这一列通过空格分隔，提取出制造商，将汽车制造商单独作为一个分类特征，并且删除原先的

Name 列。分类特征在使用之前应将其转换为虚拟变量，

文章将用特征编码的方式对分类列进行处理，考虑到

New_Price 中缺失值过多，

且已经有Price 作为标签，直接——————————————————————

—作者简介：李博涵（1999-），

男，四川绵阳人，硕士，研究方向为机器学习、

数据挖掘。基于机器学习的车辆价格预测研究

Research on Vehicle Price Prediction Based on Machine Learning

李博涵LI Bo-han

（重庆交通大学机电与车辆工程学院，

重庆400074）（School of Electromechanical and Vehicle Engineering ，Chongqing Jiaotong University ，Chongqing 400074，China ）

摘要：随着社会的进步与发展，我国机动车的保有量逐步上升，

与此同时，车辆的交易市场也在逐步扩大。因此，合理对车辆价格进行评估成为车辆交易市场最值得关注的事情。文章通过对不同车型的几类特征使用热力图进行相关性分析并且删除冗余特征，

最后用四种机器学习模型对数据进行预测，

通过一系列量化指标得出预测效果最好的模型。实验结果表明，该模型具有较高的精确度，能够有效预测车辆价格，

同时也能为二手车交易市场提供一定参考。Abstract:With the progress and development of society,the number of motor vehicles in China is gradually rising,and at the same time,the vehicle trading market is also gradually expanding.Therefore,a reasonable evaluation of the vehicle price has become the most noteworthy thing in the vehicle trading market.In this paper,several types of features of different vehicles are analyzed using thermal maps for correlation and redundant features are deleted.Finally,fo

ur machine learning models are used to predict the data,and the model with the best prediction effect is obtained through a series of quantitative indicators.The experimental results show that the model has a high accuracy and can effectively predict the vehicle price,and also provide some reference for the second-hand car market.

关键词：车辆价格；相关性分析；机器学习Key words:car price ；correlation analysis ；machine learning 中图分类号:TP181文献标识码:A 文章编号:1006-4311（2023）01-107-04doi:10.3969/j.issn.1006-4311.2023.01.035

预测结果有更高的准确性，

该结论可为工程成本预测管理提供有效参考。

参考文献:

[1]Viana V.,Ricardo.Using earned value management indexes

as team development factor and a compe factor and a compensation tool[J].Cost engineering,2005,47(5):20-25.

[2]Kim E.,Wells W.G.,and Duffey M.R.A model for effective implementation of Earned Value Management methodology [J].International Journal of Project Management,2003,21(5).

[3]Lipke W.,et al.Prediction of project outcome.2009,27(4):400-407.

[4]赵峰.基于关键路径的挣值分析法的优化研究[J].工业技术

经济，2007（06）：59-63.

[5]方志凉，

陈向东.基于关键路径的项目进度挣值分析[J].山西建筑，2008（06）：222-224.[6]盛新江.浅论带关键路径的挣值法评价方法[J].技术经济与管理研究，2006（01）：49.[7]庄曾.考虑质量因素的模糊挣值方法研究[D].天津大学，

2011.

[8]欧阳红祥，李欣，陈伟伟.基于灰Verhulst 和EVM 模型的项目进度—成本绩效预测研究[J].工程管理学报，2013，27

（03）：71-75.

[9]杨小平，韩金伟.项目管理的质量控制———质量挣值[J].管

理观察，2009（09）：28-30.[10]熊琴琴.项目挣值管理理论与方法改进研究[D].南开大

学，2010.

表1车辆特征汇总表

Name车辆品牌和名称

Kilometers_Driven Fuel_Type Transmission Owner_Type

Mileage Engine

Power

Seats New_Price

Price

车辆目前为止内行驶的总公里数（以公里为单位）车辆使用的燃料类型（汽油、柴油、

电动、压缩天然气、液化石油气）

车辆使用的变速器类型（自动/手动）

该车辆有几任拥有者

汽车公司提供的标准里程，以公里/千克或公里/千克为单位

车辆发动机的排量（CC）

车辆马力

车辆座位数

车辆最新价格

车辆当前售价

Location

Year

正则化一个五行五列的随机矩阵车辆正在出售或可供购买的位置

车辆的年份或版本

删除这列无用特征。

2相关性分析及可视化

seaborn是一个基于matplotlib开发的一个第三方可

视化库，其中包括的一个函数seaborn.heatmap()热力图，可

以用于展示数据中几组特征的相关系数矩阵，其中相关性

的强弱可以用皮尔逊相关系数来衡量，用两个变量之间的

协方差和标准差的商来表示皮尔逊相关系数，公式如下式

所示：

（1）

公式中，ρ表示相关系数，cov表示协方差，E表示数

学期望。该公式的作用就是表现出两个变量之间的线性关

系强弱，即相关系数越接近1，则说明两个变量之间相关

性越强，越接近-1，则说明两个变量之间负相关性越强，越

接近0，则说明两个变量基本不具有线性相关性[1]。热力图

将所有数字变量之间的相关性汇总展示，通过热力图可以

直观地看到所给数值之间的关系强弱，

从而判断哪些指标

更值得去研究，为训练模型选择特征作为变量做好准备。

车辆不同特征的相关性热力图如图1所示。

由图1可以看出Engine，Power和Price的正相关性

最大，结合实际情况看，发动机排量和马力往往也是人们

评价一辆车性能好坏的重要指标，Mileage和Price的负相

关性最大，相对来说大排量大马力的车辆油耗水平也会很

高，每升油能够行驶的公里数也是一个油耗指标，所以一

般情况下，每升油能够行驶的公里数越少，油耗越高，车辆

的价格也会越高。Kilometers_Driven和Seats对于车辆价

格几乎没有太大影响，但考虑到数据中也包含有二手车信

息，所以先保留这两个特征。

3模型构建及预测

车辆价格预测属于回归类型的模型，文章采用线性回

归，支持向量回归，xgboost，随机森林共四类机器学习模型

对车辆价格进行预测，线性回归是回归算法中最基础的一

种算法，通过对数据中的不同特征添加权重，各类特征与

相对应的权重相乘，在最后加上一个偏置值，通过损失函数

来判断预测值和真实值的拟合程度，数据集共有多个特征，

所以用到的是多元线性回归模型[2]。主要公式如下式所示：

（2）

其中βn是权重，b为偏置值。

支持向量回归属于支持向量机用于回归算法的分支，

支持向量机主要用于解决分类问题，而支持向量回归用于

解决分类问题。支持向量机需要做的一个目标任务到一

条最佳拟合线，使靠超平面最近的样本点之间的间隔最

大，而支持向量回归则是使靠超平面最远的样本点之间的

间隔最大，最佳拟合线是点数最多的超平面。其优点是在

样本量不是海量数据的时候，预测准确率高，泛化能力强，

带松弛变量的SVR的目标函数如下式所示：

（3）

Xgboost是一个集成类算法，基于提升算法做了改进

且和决策树有一定联系，针对传统GBDT算法做了很多细

节的提高，包括损失函数、正则化、切分点查算法优化、

稀疏感知算法、并行化算法设计，其基本原理相当于在子

树的基础上层层添加新的树，成为新的模型。假设有t轮

的预测模型，即t颗树，那么第t+1轮的模型如下式所示：

（4）

其中是i个样本第t轮的模型预测函数，f t（x i）代表

新加入的表达式，而加入的这个新的表达式应该保证能达

到使结果误差更小的要求[3]。

随机森林也是一个集成类算法，相当于将多个决策树

集成到一起，而决策树本身就是一个算法，它将需要分析

的特征通过一个筛选流程，有放回的随机从训练集中选取

样本，同时也随机选取数据的部分特征，每棵决策树使用

的样本和特征都不一样，训练出来的结果也不一样，随机

表2四个模型的四种指标

线性回归支持向量回归xgboost随机森林

MAE RMSE MAPE R22.971

5.283

0.601

0.809

2.049

4.822

0.235

0.520

1.685

3.612

0.245

0.845

1.664

3.584

0.240

0.883

表3优化前后结果对比

MAE RMSE MAPE R方值

调整参数前调整参数后1.664

1.553

3.584

3.472

0.240

0.217

0.883

0.920

图1车辆特征的相关性热力图

森林把不同的决策树结合，其结果是由这个随机森林里面的每一棵树共同决定，随机森林的训练效率高，更适合高维数据的预测[4]。

文章筛选的评价指标主要有四种，平均绝对误差（MAE）、均方根误差（RMSE）平均百分比误差（MAPE）和拟合优度（R2），通过对比以上四个模型的这四种指标，选出预测结果较为准确的模型[5]。4个模型在测试集上表现的性能指标如表2所示。

从表2可以看出随机森林的的四项指标是最好的，所以选择随机森林作为最后的预测模型，n_estimators和

max_depth是随机森林算法中两大最重要的参数，n_estimators代表的含义是森林中树木的数量，即基评估器的数量。这个参数对随机森林模型的精确性影响是单调的，n_estimators越大，模型的预测结果也会变得越精确。但是相应的，不论什么模型都有自己的决策边界，在

n_estimators达到一定的程度之后，该模型的精确性不会再上升很多或开始波动，并且，n_estimators越大，需要的计算量和内存也越大，训练的时间也会越来越长。对于这个参数，需要平衡两头去调整，max_depth表示树的最大深度[3]。最初设置的n_estimators=200，max_depth=8。但为了确保可以到最佳结果，将RMSE值设置为循环目标参数，为了出RMSE的最小值，通过网格搜索遍历，n_estimators的取值范围设置为从10到500，max_depth的取值范围设置为1到16，图2为遍历的结果。

图2

网格搜索调参图

图3

预测值和真实值对比图

通过图2可以知道，在第59次循环时，RMSE 达到最

小值3.472，通过先前设置的循环参数简单计算，

在n_estimators 为100，max_depth 为9，可以使得RMSE 达到该值，重新设定随机森林的两个参数为遍历后得到的这两

个值，将n_estimators 设置为100，

max_depth 设置为9，再次训练模型，

得到范围内最好的结果，将新的结果与先前最对比，

如表3所示。通过表3可以看出，

通过网格搜索调整参数确实让四个指标都有一定能够程度的优化，可以认为n_estimators

为100，max_depth 为9是随机森林模型最好的参数，

能够让模型的预测达到最佳。

下面通过该模型对数据进行训练，通过折线图可视化，对比真实值和预测值之间的误差，如图3所示。

通过折线图可以更加直观地看出，

预测值和真实值的走势大致是相同的，

说明该预测模型有一定参考价值。4结语

文章首先观察数据类型，

对数据进行预处理分析变量相关性等操作，随后用四种机器学习模型对处理好的数据

进行训练，从四个模型的四个指标判断模型优劣，

选择效果最好的模型进行调参，

到范围内最合适的参数，改进模型，最终使得均方根误差仅为3.472，

平均百分比误差仅为0.21%，说明文章建立的模型具有较高的准确性，文章的结果可以给有车辆需求的买家提供购买参照，

为车辆交易市场提供一些进价和出价的引导，

相关部门可以根据车辆某些重要特征的数值，对车辆的定价进行更合理的评估，

同时也能为二手车市场提供价格参考。参考文献:

[1]纪德洋，

金锋，冬雷，等.基于皮尔逊相关系数的光伏电站数据修复[J].中国电机工程学报，2022，42（04）：1514-1523.

[2]戴源，谢继征，袁静，等.紫外光诱导荧光分析仪结合多元线性回归算法在城市河流常规污染指标监测中的应用[J].环境监控与预警，2021，13（02）：29-34.

[3]王献志，曾四鸣，周雪青，等.基于XGBoost 联合模型的光伏发电功率预测[J].太阳能学报，2022，43（04）：236-242.

[4]闫广华，陈曦，张云.基于随机森林模型的东北地区收缩城市分布格局及影响因素研究[J].地理科学，2021，41（05）：880-889.

[5]李彬，杜丁香，王兴国，等.基于平均绝对误差的海上风电经柔直送出系统交流海缆纵联保护[J].电测与仪表，2022，59（06）：122-129.

688IT编程网

基于机器学习的车辆价格预测研究

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

基于机器学习的车辆价格预测研究

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式