1.何谓数据挖掘?它有哪些方面的功能?
答:
从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘;(3分)
数据挖掘的功能包括:概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析等(3分)
2.列举4种监督式学习算法?
答:
K-近邻算法(k-Nearest Neighbors) (1分)
线性回归(Linear Regression) (1分)
逻辑回归(Logistic Regression) (1分)
支持向量机(1分)
(备注:列出任意4种即可得分)
3.过拟合问题产生的原因有哪些以及解决过拟合的办法有哪些?
答:
产生的原因:
(1)使用的模型比较复杂,学习能力过强。  (1分)
(2)有噪声存在            (1分)
(3)数据量有限          (1分)
解决过拟合的办法:
(1)提前终止(当验证集上的效果变差的时候)  (1分)
(2)数据集扩增        (1分)
(3)寻最优参数  (1分)
4.支持向量机有哪些优缺点?
答:
优势:
(1)在高维空间非常高效  (1分)
(2)即使在数据维度比样本大的情况下仍然有效  (1分)
(3)在决策函数中使用训练集的子集,因此它也是高效利用内存的  (1分)
缺点:
(1)如果特征数量比样本数量大得多,在选择核函数时要避免过拟合  (1分)
(2)支持向量机通过寻支持向量到最优分割平面,是典型的二分类问题,因此无法解决多分类问题。 (1分)
(3)不直接提供概率估计 (1分)
5、数据挖掘的两大目标分为预测和描述,监督学习和无监督学习分别对应哪类目标?监督学习和无监督学习的定义是什么?分别从监督类学习和无监督类学习中一类算法的实例应用进行举例说明。
答:1.监督学习对应预测,无监督学习对应描述
2.监督学习:从标记的训练数据来推断一个功能的机器学习任务
无监督学习:根据类别未知(没有标记)的训练样本解决模式识别中的各种问题。
3.监督学习举例:分类算法,利用分类算法进行垃圾的分类。
无监督学习举例:聚类算法。利用聚类算法,如网购平台,通过用户购物喜好等进行聚类,即客户体的划分
1.请谈谈K近邻算法的优缺点有哪些?
答:
优点:简单,易于理解,易于实现;
只需保存训练样本和标记,无须估计参数,无须训练。
不易受最小错误概率的影响。  (3分)
缺点:K的选择不固定;
预测结果容易受含噪声数据的影响;
当样本不平衡时,新样本的类别偏向于训练样本中数量占优的类别,容易导致预测错误;
具有较高的计算复杂度和内存消耗,因为对每一个未知样本,都要计算它到全体已知样本的距离,才能求得它的K个最近邻。  (3分)
2.何谓聚类?它与分类有什么异同?
答:
聚类是将物理或抽象对象的集合分组成为多个类或簇的过程,使得在同一个簇中的对象之间
具有较高的相似度,而不同簇中的对象差别较大。(2分)
聚类与分类的不同,聚类要划分的类是未知的,分类则是可按已知规则进行;聚类是一种无指导学习,它不依赖预先定义的类和带类标号的训练实例,属于观察式学习,分类则属于有指导的学习,是示例式学习。(2分)
3.请用伪代码的形式描述K-Means算法的过程?
答:
(1)从一系列数据D中任意选择K个对象作为初始簇的中心  (1分)
(2)根据数据到聚类中心的距离,对每个对象进行分配      (1分)
(3)更新聚类中心位置,即计算每个簇中所有对象的质心,将聚类中心移动到质心位置  (1分)
(4)重复过程(2)(3)  (1分)
(5)直到聚类中心不再发生变化  (2分)
4.什么是降维分析?以及常用的降维算法有哪些?
答:
降维分析是指从高维数据空间到低维数据空间的变化过程,其目的是为了降低时间复杂度和空间复杂度,或者是去掉数据集中夹杂的噪声,或者是为了使用较少的特征进行解释,方便我们更好地解释数据以及实现数据的可视化 (3分)
常用的降维算法有:主成分分析,因子分析,独立成分分析  (3分)
1、请描述下数据挖掘的工作流程和步骤一般包括哪些?
答:
问题设定->特征工程->模型选择->模型训练->模型评测->模型应用
2、请谈谈你对贝叶斯算法中先验概率、后验概率、条件概率的理解,以及怎么利用后验概率计算条件概率(可用公式表达)?
答:
先验概率——事件发生前的预判概率。可以是基于历史数据的统计,可以由背景常识得出,也可以是人的主观观点给出。
后验概率——结果发生后反推事件发生原因的概率;或者说,基于先验概率求得的反向条件概率。
条件概率——一个事件发生后另一个事件发生的概率。一般的形式为P(x|y)表示y发生的条件下x发生的概率。
可用贝叶斯公式把后验概率和条件概率、先验概率联系起来,相互推算:
3、你对于人工智能的未来怎么看?请谈谈它可能对人类社会造成哪些利弊?
答:
开放式回答,没有标准答案。主要看学生对知识的综合理解以及逻辑思维能力
4、技术性元数据MataData一般包括哪些信息?
数据可视化的概念
答:
数据源信息、数据转换的描述,数据仓库内对象和数据结构的定义,数据清理和数据更新时使用的规则,源数据到目的数据的映射表,以及用户访问权限,数据备份历史记录,数据导入历史记录和信息发布历史记录
3、数据仓库和数据集市有什么相同和区别之处?
答:
对比内容
数据仓库
数据集市
范围
应用独立
特定的DSS应用
集中式,企业级(可能)
用户域的离散化
规划的
可能是临时组织的(无规划)
数据
历史的,详细的和概括的
一些历史的、详细的和概括的
轻微不规范的
高度不规范
主题
多个主题
用户关心的某一个中心主题
多个内部和外部源
很少的内部和外部源
其他特征
灵活的
严格的
面向数据
面向工程
长期
短期
开始小,逐步变大
单一的复杂结构
多,半复杂性结构,合并复杂
1、请说明OLAP和OLTP的区别?
答:
OLTP
OLAP
用户
操作人员,底层管理人员
决策人员、高级管理人员
功能
日常操作型事务处理
分析和决策
数据库设计目标
面向应用
面向主题
数据特征
当前的,最新的,细节的,二维的与分立的
历史的、聚集的、多维的、集成的与统一的
存取规模
通常一次读或写数十条记录
可能读取百万条以上记录
工作单元
一个事务
一个复杂查询
用户数
通常是成千上万个用户
可能只有几十个或上百个用户
数据库大小
通常是在GB级(100MB~1GB
通常在TB级(100G~1TB及以上)

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。