数模缺失值处理--688IT编程网

数模缺失值处理

缺失值：比赛提供的数据中，有些单元格是null或空的，我们就得想办法给他补上。

方法一：缺失太多，直接删除指标

例如调查人口信息，发现“年龄”这一项缺失了40%，就直接把该项指标删除。后面做题时也压根不用管这一个变量。

因为当一个变量缺失的数据太多时，即使想办法补上，也可能与实际情况相差甚远，那么这些数据也就没什么价值了。

那么，到底缺多少算“多”呢？这并没有一个硬性的规定，显然要是缺了30%，40%那肯定是多了。而如果调查14亿人的数据中缺少了几千甚至几万，都不算多。所以要具体问题具体分析。

适用赛题：缺失数据“过多”的变量

方法二：用均值、众数补上

所谓均值就是平均数，众数就是出现次数最多的值。

定量数据，例如关于一人的身高、年龄等数据，那么用整体的均值放到缺失数据的位置；

定性数据，例如关于一人的性别、文化程度、某些事件调查的满意度，用出现次数最多的值也就是众数补缺失

适用赛题：人口的数量年龄、经济产业情况等数据量大、且对个体精度要求不大的数据。

方法三：Newton插值法

牛顿插值法在很多书籍和网上的博客里都有详细介绍，本文就不再细讲原理了。

简单来说，牛顿插值法就是根据固定公式，构造近似函数，用近似函数的值来补上缺失值。

缺点：区间边缘处的不稳定震荡，即龙格现象。形象的来说就是插值次数高的时候，区间内函数看起来挺正常，但在区间边缘处却变得忽上忽下。

由于龙格现象，牛顿插值法不适合对导数有要求的题目。

适用赛题：热力学温度、地形测量、定位等只追求函数值精准而不关心变化的数据

方法四：样条插值法

样条插值也有固定的理论公式，是用分段光滑的曲线去插值，光滑意味着曲线不仅连续，还要有连续的导数。

插值样条是由多项式组成，多项式都由相邻的两个点决定，因此相邻的两个多项式和其导数都能在连接点处保持联系。

看不懂原理？没关系，我们直接来看图：

线性样条：每两个点连起来就是一段直线，这就是一个线性样条。很显然在每段直线的两端、也就是每个点处并不“光滑”，也就是左右导数不同。

字符串长度不够后面补0公式

二次样条：既然直线不行，我们就用曲线。而最简单的函数就是二次项函数。

每两点之间都用一个二次函数来表示，

图中我们设了多个二次函数，其中的参数可以根据每个端点的左右函数值必须相等、端点处左右导数值也必须相同来列出方程组，求解方程组就能得到所有函数表达式了。

显然二次插值看起来挺“光滑”了，因为它保证了导数连续。

但如果还是不满足我们要求的话，那就可以用三次插值，原理和二次插值一样，只不过用三次函数而已。

二次插值保证了函数和导数连续，

三次插值就能保证函数、导数、二阶导数都连续。

适用赛题：零件加工，水库水流量，图像“基线漂移”，机器人轨迹等精度要求高、不能有突变的数据。

688IT编程网

数模缺失值处理

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

688IT编程网

数模缺失值处理

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式 最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

nginx map用法正则

shell 正则表达式最后一行