数模缺失值处理
缺失值:比赛提供的数据中,有些单元格是null或空的,我们就得想办法给他补上。
方法一:缺失太多,直接删除指标
例如调查人口信息,发现“年龄”这一项缺失了40%,就直接把该项指标删除。后面做题时也压根不用管这一个变量。
因为当一个变量缺失的数据太多时,即使想办法补上,也可能与实际情况相差甚远,那么这些数据也就没什么价值了。
那么,到底缺多少算“多”呢?这并没有一个硬性的规定,显然要是缺了30%,40%那肯定是多了。而如果调查14亿人的数据中缺少了几千甚至几万,都不算多。所以要具体问题具体分析。
适用赛题:缺失数据“过多”的变量
方法二:用均值、众数补上
所谓均值就是平均数,众数就是出现次数最多的值。
定量数据,例如关于一人的身高、年龄等数据,那么用整体的均值放到缺失数据的位置;
定性数据,例如关于一人的性别、文化程度、某些事件调查的满意度,用出现次数最多的值也就是众数补缺失
适用赛题:人口的数量年龄、经济产业情况等数据量大、且对个体精度要求不大的数据。
方法三:Newton插值法
牛顿插值法在很多书籍和网上的博客里都有详细介绍,本文就不再细讲原理了。
简单来说,牛顿插值法就是根据固定公式,构造近似函数,用近似函数的值来补上缺失值。
缺点:区间边缘处的不稳定震荡,即龙格现象。形象的来说就是插值次数高的时候,区间内函数看起来挺正常,但在区间边缘处却变得忽上忽下。
由于龙格现象,牛顿插值法不适合对导数有要求的题目。
适用赛题:热力学温度、地形测量、定位等只追求函数值精准而不关心变化的数据
方法四:样条插值法
样条插值也有固定的理论公式,是用分段光滑的曲线去插值,光滑意味着曲线不仅连续,还要有连续的导数。
插值样条是由多项式组成,多项式都由相邻的两个点决定,因此相邻的两个多项式和其导数都能在连接点处保持联系。
看不懂原理?没关系,我们直接来看图:
线性样条:每两个点连起来就是一段直线,这就是一个线性样条。很显然在每段直线的两端、也就是每个点处并不“光滑”,也就是左右导数不同。
字符串长度不够后面补0公式
二次样条:既然直线不行,我们就用曲线。而最简单的函数就是二次项函数。
每两点之间都用一个二次函数来表示,
图中我们设了多个二次函数,其中的参数可以根据每个端点的左右函数值必须相等、端点处左右导数值也必须相同来列出方程组,求解方程组就能得到所有函数表达式了。
显然二次插值看起来挺“光滑”了,因为它保证了导数连续。
但如果还是不满足我们要求的话,那就可以用三次插值,原理和二次插值一样,只不过用三次函数而已。
二次插值保证了函数和导数连续,
三次插值就能保证函数、导数、二阶导数都连续。
适用赛题:零件加工,水库水流量,图像“基线漂移”,机器人轨迹等精度要求高、不能有突变的数据。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。