《机器学习》练习题与解答
1.小刚去应聘某互联网公司的算法工程师,面试官问他"回归和分类有什么相同点和不同点〞,他说了以下言论,请逐条判断是否准确.1〕回归和分类都是有监督学习问题[单选题] [必答题]
○对○错
参考答案:对.
解析:这道题只有一个同学做错.本题考察有监督学习的概念.有监督学习是从标签化训练数据集中推断出函数的机器学习任务.
有监督学习和无监督学习的区别是:
机器学习算法的图谱如下:
在回归问题中,标签是连续值;在分类问题中,标签是离散值.具体差别请看周志华《机器学习》书中的例子,一看便懂:
2.背景同上题.请判断2〕回归问题和分类问题都有可能发生过拟合 [单选题] [必答题]
○对○错
答案:对
解析:这题有两个同学做错.过拟合的英文名称是 Over-fitting<;过拟合>.为了说清楚"过〞拟合,首先说一下"拟合〞
[拟合的几何意义]:
从几何意义上讲,拟合是给定了空间中的一些点,到一个已知形式未知参数的连续曲线或曲面来最大限度地逼近这些点.一个直观的例子,是下面的电阻和温度的例子.
我们知道在物理学中,电阻和温度是线性的关系,也就是R=at+b.现在我们有一系列关于"温度〞和"电阻〞的测量值.一个最简单的思路,取两组测量值,解一个线性方程组,就可以求出系数a、b了!但是理想是丰满的,现实是残酷的!由于测量误差等的存在,我们每次测量得到的温度值和电阻值都是有误差的!因此,为了提高测量精度,我们会测量多次,得到多组的值,这样就相当于得到二维平面上的多个点,我们的目标是寻一条直线,让这条直线尽可能地接近各个测量得到的点.
拟合的数学意义:
在数学的意义上,所谓拟合<fit>是指已知某函数的若干离散函数值{f1,f2,…,fn}〔未必都是准确值,有个别可能是近似甚至错误值〕,通过调整该函数中若干待定系数f<λ1, λ2,…,λn>,使得该函数与已知点集的差别<;最小二乘意义>最小.正则化的回归分析可以避免
[说说过拟合]
古人云"过犹不与〞.所谓"过〞拟合,顾名思义,就是在学习的集合〔也就是训练集〕上拟合的很不错,但是有点过头了,什么意思?他能够在学过的数据上判断的很准,但是如果再扔给它一系列新的没学习过的数据,它判断的非常差!比如古时候有个教书先生教小明写数字,"一〞字是一横,"二〞字是两横,"三〞字是三横.然后,小明说,老师你不用教我写数字了,我都会写.老师很
惊讶,那你说"万〞字怎么写,结果小明在纸上写下了无数个"横〞..
用##大学林轩田老师的话说,过拟合是"书呆子〞,"钻牛角尖〞.如果用过于复杂的模型来刻画简单的问题,就有可能得到"聪明过头〞的结果.比如下面预测房子的价格<price>和size之间关系的问题〔来源于andrew ng的ppt〕
通过五组数据,我们通过肉眼直观地看,可以初步判断房屋的价格和size之间是二次函数的关系,也就是中间这幅图所拟合的情况.而右边这幅图中,自作聪明地用了一个四次函数来拟和这五组数据,虽然在已知的五个数据上都是100%准确,却得出了"当房子的size大于某个值时房子的价格会随着房屋面积增大而越来越低〞这样的荒谬结论!这样的是过拟合.左边这个用一条直线来拟合但是拟合的误差很大也不置信,这叫"欠拟合〞.
在周志华老师的书中,举的例子是这样的:
发现了没有?周志华老师用的是"是不是树叶〞这样的分类问题举例,andrew ng用的是"房价和房屋面积的关系〞这样的回归问题举例.这说明,分类和回归都有可能过拟合.
3.背景同上题.请判断3〕一般来说,回归不用在分类问题上,但是也有特殊情况,比如logistic 回归可以用来解决0/1分类问题 [单选题] [必答题]
○对○错
答案:对
解析:Logistic回归是一种非常高效的分类器.它不仅可以预测样本的类别,还可以计算出分类的概率信息,在一线互联网公司中广泛的使用,比如应用于CTR预估这样的问题中.这里我们不详细说明其原理,后续课程会讲到.很多人对它的名字会产生疑问,挂着"回归〞的头,卖的是"分类〞的肉,别扭的慌.
其实我们不用纠结它到底是"回归〞,还是"分类〞,非得二选一.可以参考一下百度百科关于"logistic回归〞的词条
其中举了一个##员工"自杀的日期〞与"累计自杀人数〞之间关系的例子,并通过logistic回归分析来拟合出一条曲线.这说明logistic回归本身也有一定的解决"回归〞问题的能力,只是工业界都用它来解决分类问题.

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。