机器学习期末考试单选题
1.在NumPy中创建⼀个元素均为0的数组可以使⽤( A)函数。
B.arange( )
C.linspace( )
D.logspace( )timespan怎么设置
2.通常( A)误差作为泛化误差的近似。
A.测试
B.训练
C.经验
D.以上都可以
试题解析:解析:⼀般情况下,我们可以通过实验测试来对学习器的泛化误差进⾏评估并进⽽做出选择。因此,通常使⽤⼀个“测试集”来测试学习器对新样本的判别能⼒,然后以测试集上的“测试误差”作为泛化误差的近似。
3.梯度为( B)的点,就是损失函数的最⼩值点,⼀般认为此时模型达到了收敛。
A.-1
B.0
C.1
D.⽆穷⼤
4.创建⼀个3*3的数组,下列代码中错误的是( C )。
A.np.arange(0,9).reshape(3,3)
(3)
C.np.random.random([3,3,3])
D.np.mat("1,2,3;4,5,6;7,8,9")
5.关于数据集的标准化,正确的描述是:( A )。
A.数据集标准化有助于加快模型的收敛速度
B.标准化⼀定是归⼀化,即数据集的取值分布在[0,1]区间上
C.数据集的标准化⼀定是让标准差变为1
D.所有的模型建模之前,必须进⾏数据集标准化
6.Python安装第三⽅库的命令是( C )。
A.pip –h
B.pyinstaller <;拟安装库名>
C.pip install <;拟安装库名>
D.pip download <;拟安装库名>
7.如果发现模型在验证集上的准确性整体⾼于训练集,在验证集上的损失整体低于训练集,则最可能的情况是:( B )。
A.验证集的数据样本与训练集相⽐,数量过少和过于简单
B.模型没有采⽤正则化⽅法
C.以上都对
试题解析:模型过拟合
8.DL是下⾯哪个术语的简称( D )。
A.⼈⼯智能
B.机器学习
C.神经⽹络
D.深度学习
9.验证集和测试集,应该:( A )。
A.样本来⾃同⼀分布
B.样本来⾃不同分布
C.样本之间有⼀⼀对应关系
D.拥有相同数量的样本
10.⼀般使⽤以下哪种⽅法求解线性回归问题:( A )。
A.最⼩⼆乘法
B.最⼤似然估计
C.对数变换
D.A和B
11.以下哪个函数可以实现画布的创建?( C )。
A.subplots( )
B.add_subplot( )
C.figure( )
D.subplot2grid( )
12.Numpy中统计数组元素个数的⽅法是( C )。
A.ndim
B.shape
C.size
D.itemsize
13.决策树中的分类结果是最末端的节点,这些节点称为( D )。
A.根节点
B.⽗节点
C.⼦节点
D.叶节点
14.以下哪种不是Python第三⽅库的安装⽅法( C )。
A.pip⼯具安装
B.⾃定义安装
C.⽹页安装
D.⽂件安装
15.关于学习率,以下描述错误的是:( B )。
A.如果学习率⾜够⼩,随机梯度下降算法将更容易获得全局最优解。
B.降低学习率有可能导致模型训练时间增加。
C.以上都不对。
试题解析:学习率决定着权重和偏差的更新幅度。
将输出误差反向传播给⽹络参数,以此来拟合样本的输出。本质上是最优化的⼀个过程,逐步趋向于最优解。但是每⼀次更新参数利⽤多少误差,就需要通过⼀个参数来控制,这个参数就是学习率(Learning rate),也称为步长。学习率(Learning rate)作为监督学习以及深度学习中重要的超参,其决定着⽬标函数能否收敛到局部最⼩值以及何时收敛到最⼩值。
16.将数据集划分成训练集S和测试集T的常见⽅法有( D )。
A.留出法
B.交叉验证法
C.⾃助法
D.以上均正确
试题解析:解析:当只有⼀个数据集D,既要⽤于训练,⼜要⽤于测试时,往往会对数据集D进⾏适当处理,从中产⽣出训练集S和测试集T,常⽤的⽅法有:留出法、交叉验证法、⾃助法。
17.ML是下⾯哪个术语的简称( B )。
A.⼈⼯智能
B.机器学习
C.神经⽹络
D.深度学习
18.当数据特征不明显、数据量少的时候,采⽤下⾯哪个模型(C)。
A.线性回归
B.逻辑回归
C.⽀持向量机
D.神经⽹络
19.机器学习的流程包括:分析案例、数据获取、(C)和模型验证这四个过程。
A.数据清洗
B.数据分析
C.模型训练
D.模型搭建
20.⼀般⽽⾔,某个⼈的学习时间长短与测验成绩之间的关系是:( D)。
A.不能确定
B.负相关
C.不相关
D.正相关
21.Matplotlib中的哪个包提供了⼀批操作和绘图函数?( A )。
A.pyplot
B.Bar
D.pprint
22.Numpy.random模块中⽤于对⼀个序列进⾏随机排序的函数是( B )。
A.uniform
B.shuffle
C.permutation
23.以下哪种不是Python第三⽅库的⽅法( B )。
A.pip install
B.pip install -U pip
grid韩剧豆瓣C.pip update
D.pip uninstall
24.以下哪个软件包⽤于矩阵和向量的科学计算?( A )。
A.Numpy
B.Pandas
C.Matplotlib
D.Seaborn
25.在逻辑斯蒂(对数⼏率)回归(logistic regression)中将输出y视为样本x属于正例的概率。给定训练数据集,通常采⽤( B )来估计参数w和b,最⼤化样本属于其真实类标记的概率的对数,即最⼤化对数似然。
A.最⼩⼆乘法
B.极⼤似然法
C.交叉验证法
D.留出法
试题解析:解析:A、⽤于线性回归中的参数求解 C、⼀种模型评估⽅法 D、⼀种模型评估⽅法
26.使下⾯哪个函数可以将线性回归线转为逻辑回归线?( A )。
A.Sigmoid
B.⾼斯核函数
C.P(A)
D.H(x)
27.⽀持向量机的简称是( D )。
A.AI
B.ML
C.ANN
D.SVM
28.线性回归⽅程y=-2x+7揭⽰了割草机的剩余油量(升)与⼯作时间(⼩时)的关系,以下关于斜率描述正确的是:( C )。
A.割草机可以被预测到的油量是2升
B.割草机每⼯作1⼩时⼤约需要消耗7升油
C.割草机每⼯作1⼩时⼤约需要消耗2升油
D.割草机⼯作1⼩时后剩余油量是2升
浮点运算指令对用于科学计算机是很必要的29.如果学习率过⼤,以下描述正确的是:( A )。
A.模型需要更长的训练时间才能收敛到最优值
B.模型需要消耗更多的计算资源
C.模型难以泛化
试题解析:模型难以收敛到最优值
A.卷积神经⽹络
B.循环神经⽹络
C.⽹络森林
D.深度神经⽹络
31.Numpy提供了两种基本对象,⼀种是ndarray,另⼀种是( B)。
A.array
B.func
C.matrix
D.Series
32.以下( C)函数可以在绘制图表时,设置x轴的名称。
A.xlim()
B.ylim()
C.xlabel()
33.⽤于度量样本点之间距离的距离度量函数有( D )。
A.连续属性距离度量函数
B.离散属性距离度量函数
C.混合属性距离度量函数
D.以上都是
34.使⽤Pandas库设置索引使⽤哪种⽅法( D )。
<()⽅法
<_datetime()⽅法
allocatorD.set_index()⽅法 从英⽂意思都能得出答案
35.对于机器学习表述下列正确的是( B )。
A.机器学习和⼈⼯智能是独⽴的两种技术
B.机器学习是⼈⼯智能的核⼼技术和重要分⽀
C.机器学习的⽬标是让机器设备像⼈类⼀样学习书本知识
D.机器学习是指⼀系列程序逻辑控制算法python基础知识测试
A.a = numpy.array([1,2,3])
B.a = numpy.array([1,[1,2,3],3]) ⽆法创建,元素数量不⼀致
C.a = numpy.array([[1,2,3],[4,5,6]])
D.a = numpy.array([[‘xiao’,’qian’],[‘xiao’,’feng’]])
37.如果你有10000000 个样本,将如何划分数据集?( A )。
A.98% train ,1% dev ,1% test 训练集、验证集、测试集
B.34% train,33% dev,33% test
C.60% train,20% dev,20% test
D.50% train ,20% dev ,30% test
38.%matplotlib inline指令的作⽤是:( A )。
A.将Matplotlib命令绘制的图形嵌⼊到当前⽂档中显⽰
B.Matplotlib命令可以⽤于当前⽂档绘图
C.Matplotlib命令只能在⽂档内部运⾏
D.必须包含该指令,Matplotlib命令才能被执⾏
39.假设我们获得了具有n条记录的数据集,其中输⼊变量为x,输出变量为y。使⽤线性回归⽅法对该数据集进⾏建模,将数据集随机分为训练集和测试集。如果我们逐渐增加训练集的⼤⼩,随着训练集⼤⼩的增加,则平均训练误差会发⽣什么变化?( C)。
A.减少
B.不确定
C.以上都不对
试题解析:增加
40.机器学习的简称是( B )。
A.AI
B.ML
C.DL
D.NN
41.对没有标签的数据进⾏分类的问题属于机器学习中哪⼀类问题( )。⽆label即⽆监督学习,聚类降维概率模型
A.回归
B.分类
C.聚类
D.强化
把输⼊数据看成⼀个⾏(m)为特征,列(N)为样本的矩阵。则从数据⾓度,可以将⽆监督学习分为三类。
将数据按列划分,即将相似的样本聚到同类,即对数据进⾏聚类,代表算法k-means,层次聚类。
程序设计语言最接近自然语言将数据按⾏划分,把⾼维空间的向量转化到低维空间的向量,即对数据进⾏降维,代表算法主成分分析(PCA)。
同时考虑数据的纵向和横向结构,假设数据由某个概率模型⽣成,通过数据学习该概率模型,代表算法PageRank算法。
42.有程序段: a=np.random.randn(4,3) b=np.random.randn(3,2) c=a*b 根据数组a、b、c的定义,推断c的维度为:( D )。
D.c的计算会出错,因为a和b的维度不匹配
试题解析:4⾏3列矩阵⽆法和3⾏2列矩阵相乘
试卷分析:单选题考察⼗分基础,主要涉及基本概念和基础运⽤的考查,知识点⽅⾯涵盖Python基础、Python第三⽅库Numpy、Matplotlib等的简单应⽤、机器学习基础模型、机器学习基本流程、数据集划分、机器学习基础知识、英⽂术语、平均训练误差等,试题中出现的难点主要有对学习率的理解。总的来说,题⽬简单易懂,难度低。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论