机器学习(周志华)参考答案
第一章  绪论(略)
第二章模型评估与选择
1.数据集包含1000个样本,其中500个正例,500个反例,将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估,试估算共有多少种划分方式。
正则化其实是破坏最优化一个组合问题,从500500正反例中分别选出150150正反例用于留出法评估,所以可能取150)2。
法应该是(C500
2.数据集包含100个样本,其中正反例各一半,假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别(训练样本数相同时进行随机猜测),试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果。
10折交叉检验:由于每次训练样本中正反例数目一样,所以讲结果判断为正反例的概率也是一样的,所以错误率的期望是5050%。
留一法:如果留下的是正例,训练样本中反例的数目比正例多一个,所以留出的样本会被判断是反例;同理,留出的是反例,则会被判断成正例,所以错误率是100%。
3.若学习器A的F1值比学习器B高,试析A的BEP值是否也比B高。Array
4.试述真正例率(TPR)、假正例率(FPR)与查准率(P)、查全率(R)之间的联系。
查全率: 真实正例被预测为正例的比例
真正例率: 真实正例被预测为正例的比例
显然查全率与真正例率是相等的。
查准率:预测为正例的实例中真实正例的比例
假正例率: 真实反例被预测为正例的比例
两者并没有直接的数值关系。
9.试述卡方检验过程。
第三章线性模型
2.试证明,对于参数w,对率回归(logistics回归)的目标函数(式1)是非凸的,但其对数似然函数(式2)是凸的。
如果一个多元函数是凸的,那么它的Hessian矩阵是半正定的。
3.编程实现对率回归,并给出西瓜数据集3.0α上的结果
blog.csdn/icefire_tyh/article/details/52068844
4.选择两个UCI数据集,比较10折交叉验证法和留一法所估计出的对率回归的错误率。blog.csdn/icefire_tyh/article/details/52068900
5.编程实现线性判别分析,并给出西瓜数据集3.0α上的结果。
blog.csdn/icefire_tyh/article/details/52069003
6. LDA仅在线性可分数据上能获得理想结果,试设计一个改进方法,使其能较好地用于非线性可分数据。
在当前维度线性不可分,可以使用适当的映射方法,使其在更高一维上可分,典型的方法有KLDA,可以很好的划分数据。
9.使用OvR和MvM将多分类任务分解为二分类任务求解时,试述为何无需专门针对类别不平衡性进行处理。
书中提到,对于OvROvR,MvMMvM来说,由于对每个类进行了相同的处理,其拆解出的二分类任务中
类别不平衡的影响会相互抵消,因此通常不需要专门处理。以ECOCECOC编码为例,每个生成的二分类器会将所有样本分成较为均衡的二类,使类别不平衡的影响减小。当然拆解后仍然可能出现明显的类别不平衡现象,比如一个超级大类和一小类。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。