最新最全的机器学习面试题及答案汇总--688IT编程网

最新最全的机器学习⾯试题及答案汇总

⼈⼯智能的出现，将机器学习推向了顶峰，机器学习成为⼀门过硬的技术，从事⼈⼯智能职业，要过⼀⼤⾯试关就是机器学习，掌握了机器学习才能更好的发挥出潜能，作为⼈⼯智能⼯程师，如何快速通关呢?下⾯IT培训⽹盘点机器学习⾯试题，并附上答案。

机器学习⾯试题有答案汇总

Q1. 在回归模型中，下列哪⼀项在权衡⽋拟合(under-fitting)和过拟合(over-fitting)中影响最⼤?

A. 多项式阶数

B. 更新权重 w 时，使⽤的是矩阵求逆还是梯度下降

C. 使⽤常数项

答案：A

解析：选择合适的多项式阶数⾮常重要。如果阶数过⼤，模型就会更加复杂，容易发⽣过拟合；如果阶数较⼩，模型就会过于简单，容易发⽣⽋拟合。如果有对过拟合和⽋拟合概念不清楚的，见下图所⽰：

Q2. 假设你有以下数据：输⼊和输出都只有⼀个变量。使⽤线性回归模型(y=wx+b)来拟合数据。那么使⽤留⼀法(Leave-One Out)交叉验证得到的均⽅误差是多少?

A. 10/27

B. 39/27

C. 49/27

D. 55/27

答案：C

解析：留⼀法，简单来说就是假设有 N 个样本，将每⼀个样本作为测试样本，其它 N-1 个样本作为训练样本。这样得到 N 个分类器，N 个测试结果。⽤这 N个结果的平均值来衡量模型的性能。

对于该题，我们先画出 3 个样本点的坐标：

使⽤两个点进⾏线性拟合，分成三种情况，如下图所⽰：

第⼀种情况下，回归模型是 y = 2，误差 E1 = 1。

第⼆种情况下，回归模型是 y = -x + 4，误差 E2 = 2。

第三种情况下，回归模型是 y = -1/3x + 2，误差 E3 = 2/3。

则总的均⽅误差为：

Q3. 下列关于极⼤似然估计(Maximum Likelihood Estimate，MLE)，说法正确的是(多选)?

A. MLE 可能并不存在

B. MLE 总是存在

C. 如果 MLE 存在，那么它的解可能不是唯⼀的

D. 如果 MLE 存在，那么它的解⼀定是唯⼀的

答案：AC

解析：如果极⼤似然函数 L(θ) 在极⼤值处不连续，⼀阶导数不存在，则 MLE 不存在，如下图所⽰：

另⼀种情况是 MLE 并不唯⼀，极⼤值对应两个θ。如下图所⽰：

Q4. 如果我们说“线性回归”模型完美地拟合了训练样本(训练样本误差为零)，则下⾯哪个说法是正确的?

A. 测试样本误差始终为零

B. 测试样本误差不可能为零

C. 以上答案都不对

答案：C

解析：根据训练样本误差为零，⽆法推断测试样本误差是否为零。值得⼀提是，如果测试样本样本很⼤，则很可能发⽣过拟合，模型不具备很好的泛化能⼒!

Q5. 在⼀个线性回归问题中，我们使⽤ R 平⽅(R-Squared)来判断拟合度。此时，如果增加⼀个特征，模型不变，则下⾯说法正确的是?

A. 如果 R-Squared 增加，则这个特征有意义

B. 如果R-Squared 减⼩，则这个特征没有意义

C. 仅看 R-Squared 单⼀变量，⽆法确定这个特征是否有意义。

D. 以上说法都不对

答案：C

解析：线性回归问题中，R-Squared 是⽤来衡量回归⽅程与真实样本输出之间的相似程度。其表达式如下所⽰：

上式中，分⼦部分表⽰真实值与预测值的平⽅差之和，类似于均⽅差 MSE；分母部分表⽰真实值与均值的平⽅差之和，类似于⽅差 Var。根据 R-Squared 的取值，来判断模型的好坏：如果结果是 0，说明模型拟合效果很差；如果结果是 1，说明模型⽆错误。⼀般来说，R-Squared 越⼤，表⽰模型拟合效果越好。R-Squared 反映的是⼤概有多准，因为，随着样本数量的增

加，R-Square必然增加，⽆法真正定量说明准确程度，只能⼤概定量。

对于本题来说，单独看 R-Squared，并不能推断出增加的特征是否有意义。通常来说，增加⼀个特征，R-Squared 可能变⼤也可能保持不变，两者不⼀定呈正相关。

如果使⽤校正决定系数(Adjusted R-Square)：

其中，n 是样本数量，p 是特征数量。Adjusted R-Square 抵消样本数量对 R-Square的影响，做到了真正的 0~1，越⼤越好。

Q6. 下列关于线性回归分析中的残差(Residuals)说法正确的是?

A. 残差均值总是为零

B. 残差均值总是⼩于零

C. 残差均值总是⼤于零

D. 以上说法都不对

答案：A

解析：线性回归分析中，⽬标是残差最⼩化。残差平⽅和是关于参数的函数，为了求残差极⼩值，令残差关于参数的偏导数为零，会得到残差和为零，即残差均值为零。

Q7. 下列关于异⽅差(Heteroskedasticity)说法正确的是?

A. 线性回归具有不同的误差项

B. 线性回归具有相同的误差项

C. 线性回归误差项为零

D. 以上说法都不对

答案：A

解析：异⽅差性是相对于同⽅差(Homoskedasticity)⽽⾔的。所谓同⽅差，是为了保证回归参数估计量具有良好的统计性质，经典线性回归模型的⼀个重要假定：总体回归函数中的随机误差项满⾜同⽅差性，即它们都有相同的⽅差。如果这⼀假定不满⾜，即：随机误差项具有不同的⽅差，则称线性回归模型存在异⽅差性。

通常来说，奇异值的出现会导致异⽅差性增⼤。

Q8. 下列哪⼀项能反映出 X 和 Y 之间的强相关性?

A. 相关系数为 0.9

B. 对于⽆效假设β=0 的 p 值为 0.0001

C. 对于⽆效假设β=0 的 t 值为 30

D. 以上说法都不对

答案：A

解析：相关系数的概念我们很熟悉，它反映了不同变量之间线性相关程度，⼀般⽤ r 表⽰。

其中，Cov(X,Y) 为 X 与 Y 的协⽅差，Var[X] 为 X 的⽅差，Var[Y] 为 Y 的⽅差。r 取值范围在 [-1,1] 之间，r 越⼤表⽰相关程度越⾼。A 选项中，r=0.9 表⽰ X 和 Y 之间有较强的相关性。

⽽ p 和 t 的数值⼤⼩没有统计意义，只是将其与某⼀个阈值进⾏⽐对，以得到⼆选⼀的结论。例如，有两个假设：

⽆效假设(null hypothesis)H0：两参量间不存在“线性”相关。

备择假设(alternative hypothesis)H1：两参量间存在“线性”相关。

如果阈值是 0.05，计算出的 p 值很⼩，⽐如为 0.001，则可以说“有⾮常显著的证据拒绝 H0 假设，相信 H1 假设。即两参量间存在“线性”相关。p 值只⽤于⼆值化判断，因此不能说 p=0.06 ⼀定⽐ p=0.07 更好。

Q9. 下列哪些假设是我们推导线性回归参数时遵循的(多选)?

A. X 与 Y 有线性关系(多项式关系)

B. 模型误差在统计学上是独⽴的

C. 误差⼀般服从 0 均值和固定标准差的正态分布

D. X 是⾮随机且测量没有误差的

答案：ABCD

解析：在进⾏线性回归推导和分析时，我们已经默认上述四个条件是成⽴的。

Q10. 为了观察测试 Y 与 X 之间的线性关系，X 是连续变量，使⽤下列哪种图形⽐较适合?

A. 散点图

B. 柱形图

C. 直⽅图

D. 以上都不对

答案：A

解析：散点图反映了两个变量之间的相互关系，在测试 Y 与 X 之间的线性关系时，使⽤散点图最为直观。

Q11. ⼀般来说，下列哪种⽅法常⽤来预测连续独⽴变量?

A. 线性回归

B. 逻辑回顾

C. 线性回归和逻辑回归都⾏

D. 以上说法都不对

答案：A

解析：线性回归⼀般⽤于实数预测，逻辑回归⼀般⽤于分类问题。

Q12. 个⼈健康和年龄的相关系数是 -1.09。根据这个你可以告诉医⽣哪个结论?

A. 年龄是健康程度很好的预测器

B. 年龄是健康程度很糟的预测器

C. 以上说法都不对

答案：C

解析：因为相关系数的范围是 [-1,1] 之间，所以，-1.09 不可能存在。

Q13. 下列哪⼀种偏移，是我们在最⼩⼆乘直线拟合的情况下使⽤的?图中横坐标是输⼊ X，纵坐标是输出 Y。

A. 垂直偏移(vertical offsets)

B. 垂向偏移(perpendicular offsets)

C. 两种偏移都可以

D. 以上说法都不对

答案：A

解析：线性回归模型计算损失函数，例如均⽅差损失函数时，使⽤的都是 vertical offsets。perpendicular offsets ⼀般⽤于主成分分析(PCA)中。

Q14. 假如我们利⽤ Y 是 X 的 3 阶多项式产⽣⼀些数据(3 阶多项式能很好地拟合数据)。那么，下列说法正确的是(多选)?

A. 简单的线性回归容易造成⾼偏差(bias)、低⽅差(variance)

B. 简单的线性回归容易造成低偏差(bias)、⾼⽅差(variance)

C. 3 阶多项式拟合会造成低偏差(bias)、⾼⽅差(variance)

D. 3 阶多项式拟合具备低偏差(bias)、低⽅差(variance)

答案：AD

解析：偏差和⽅差是两个相对的概念，就像⽋拟合和过拟合⼀样。如果模型过于简单，通常会造成⽋拟合，伴随着⾼偏差、低⽅差；如果模型过于复杂，通常会造成过拟合，伴随着低偏差、⾼⽅差。

⽤⼀张图来形象地表⽰偏差与⽅差的关系：

偏差(bias)可以看成模型预测与真实样本的差距，想要得到 low bias，就得复杂化模型，但是容易造成过拟合。⽅差(variance)可以看成模型在测试集上的表现，想要得到 low variance，就得简化模型，但是容

易造成⽋拟合。实际应⽤中，偏差和⽅差是需要权衡的。若模型在训练样本和测试集上都表现的不错，偏差和⽅差都会⽐较⼩，这也是模型⽐较理想的情况。

Q15. 假如你在训练⼀个线性回归模型，有下⾯两句话：

1. 如果数据量较少，容易发⽣过拟合。

2. 如果假设空间较⼩，容易发⽣过拟合。

关于这两句话，下列说法正确的是?

A. 1 和 2 都错误

B. 1 正确，2 错误

C. 1 错误，2 正确

D. 1 和 2 都正确

答案：B

解析：先来看第 1 句话，如果数据量较少，容易在假设空间到⼀个模型对训练样本的拟合度很好，容易造成过拟合，该模型不具备良好的泛化能⼒。

再来看第 2 句话，如果假设空间较⼩，包含的可能的模型就⽐较少，也就不太可能到⼀个模型能够对样本拟合得很好，容易造成⾼偏差、低⽅差，即⽋拟合。

Q16. 假如我们使⽤ Lasso 回归来拟合数据集，该数据集输⼊特征有 100 个

(X1，X2，...，X100)。现在，我们把其中⼀个特征值扩⼤ 10 倍(例如是特征 X1)，然后⽤相同的正则化参数对 Lasso 回归进⾏修正。

那么，下列说法正确的是?

A. 特征 X1 很可能被排除在模型之外

B. 特征 X1 很可能还包含在模型之中

C. ⽆法确定特征 X1 是否被舍弃

D. 以上说法都不对

答案： B

解析：Lasso 回归类似于线性回归，只不过它在线性回归的基础上，增加了⼀个对所有参数的数值⼤⼩约束，如下所⽰：

其中，t 为正则化参数。Lasso 回归其实就是在普通线性回归的损失函数的基础上增加了个β的约束。那么β的约束为什么要使⽤这种形式，⽽不使⽤β的平⽅约束呢?原因就在于第⼀范数的约束下，⼀部分回归系数刚好可以被约束为 0。这样的话，就达到了特征选择的效果。如下图所⽰：

左边是第⼆范式，右边是第⼀范式。第⼀范数约束下，β更有可能被约束成 0。这点⾮常类似于L1 和 L2 正则化的区别，有兴趣的请看：机器学习中 L1 和 L2 正则化的直观解释

因此，Lasso 回归适⽤于样本数量较少，特征维度较⼤的情形，便于从较多特征中进⾏特征选择。例如 DNA 数据，特征维度很⼤，我们只希望通过 Lasso 回归出与某些疾病有关的 DNA ⽚段。

本题中，将特征 X1 数值扩⼤ 10 倍，他对应的回归系数将相应会减⼩，但不为 0，以此来保证仍然满⾜β的正则化约束。

Q17. 关于特征选择，下列对 Ridge 回归和 Lasso 回归说法正确的是?

A. Ridge 回归适⽤于特征选择

java面试题要背多久

B. Lasso 回归适⽤于特征选择

C. 两个都适⽤于特征选择

D. 以上说法都不对

答案：B

688IT编程网

最新最全的机器学习面试题及答案汇总

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

688IT编程网

最新最全的机器学习面试题及答案汇总

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式 最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

nginx map用法正则

shell 正则表达式最后一行