数据分析笔试题目及答案解析
  数据分析笔试题目及答案解析
  —— 第1题 ——
  1. 从含有N个元素的总体中抽取n个元素作为样本,使得总体中的每一个元素都有相同的机会(概率)被抽中,这样的抽样方式称为?
  A. 简单随机抽样
  B. 分层抽样
  C. 系统抽样
  D. 整抽样
  答案:A
  —— 第2题 ——
  2. 一组数据,均值中位数众数,则这组数据
  A. 左偏
  B. 右偏
  C. 钟形
  D. 对称
  答案:B
  「题目解析」
  分布形状由众数决定, 均值大于众数的化,说明峰值在左边,尾巴在右边,所以右偏。偏态是看尾巴在哪边。
  —— 第3题 ——
  3. 对一个特定情形的估计来说,置信水平越低,所对应的置信区间?
  A. 越小
  B. 越大
  C. 不变
  D. 无法判断
  答案:A
  「题目解析」
  根据公式,Z减小,置信区间减小。
  —— 第4题 ——
  4.关于logistic回归算法,以下说法不正确的是?
  A. logistic回归是当前业界比较常用的算法,用于估计某种事物的可能性
  B. logistic回归的目标变量可以是离散变量也可以是连续变量
  C. logistic回归的结果并非数学定义中的概率值
  D. logistic回归的自变量可以是离散变量也可以是连续变量
  答案:B
  「题目解析」
  逻辑回归是二分类的分类模型,故目标变量是离散变量,B错;
  logisitc回归的结果为“可能性”,并非数学定义中的概率值,不可以直接当做概率值来用,C对。
  —— 第5题 ——
  5.下列关于正态分布,不正确的是?
  A. 正态分布具有集中性和对称性
  B. 期望是正态分布的位置参数,描述正态分布的集中趋势位置
  C. 正态分布是期望为0,标准差为1的分布
  D. 正态分布的期望、中位数、众数相同
  答案:C
  「题目解析」
  N(0,1)是标准正态分布。
  —— 第6题 ——
  6. 以下关于关系的叙述中,正确的是?
  A. 表中某一列的数据类型可以同时是字符串,也可以是数字
  B. 关系是一个由行与列组成的、能够表达数据及数据之间联系的二维表
  C. 表中某一列的值可以取空值null,所谓空值是指安全可靠或零
  D. 表中必须有一列作为主关键字,用来惟一标识一行
  E. 以上答案都不对
  答案:B
  「题目解析」
  B. 关系是一张二维表,表的每一行对应一个元组,每一列对应一个域,由于域可以相同,所以必须对每列起一个名字,来加以区分,这个名字称为属性。
  —— 第7题 ——
sql查询面试题及答案  7. 想要了解一个地区人的一般收入水平,以下什么指标不能使用?
  A. 方差
  B. 几何平均数
  C. 众数
  D. 中位数
  E. P值
  答案:B E
  「题目解析」
  几何平均数:几何平均数是对各变量值的连乘积开项数次方根。求几何平均数的方法叫做几何平均法。如果总水平、总成果等于所有阶段、所有环节水平、成果的连乘积总和时,求各阶段、各环节的一般水平、一般成果,要使用几何平均法计算几何平均数,而不能使用算术平均法计算算术平均数。根据所拿握资料的形式不同,其分为简单几何平均数和加权几何平均数两种形式。
  —— 第8题 ——
  8. 以下属于聚类算法的是?
  A. ARIMA
  B. 朴素贝叶斯
  C. 支持向量机
  D. K-MEANS
  答案:D
  「题目解析」
  A.时间序列
  B.C. 分类模型
  D 聚类
  —— 第9题 ——
  9. 样本中各观察值均加5后?
  A. 方差加25
  B. 标准差加5
  C. 均值加5
  D. 中值加5
  答案:C D
  「题目解析」
  样本中各观察值均加5后,标准差和方差不变,均值和中值加5。因为标准差反映数据的离散程度,所有观察值相同的变化,对波动没有影响。举个例子,样本中3个观察值都为1,则方差为0。样本中每个观察值均加5,变成3个5,方差还是0。
  —— 第10题 ——
  10. 一批零件共10个,其中有3个不合格品,从中一个一个不放回取出,则第三次才取得不合格品的概率是?(填小数)
  答案:0.175
  「题目解析」
  (7/10) __ (6/9) __ (3/8) = 0.175
  —— 第11题 ——
  11. 某业务线的营业收入为:200,220,250,300,320万元,则平均增长量为?万元
  答案:30
  「题目解析」
  平均增长量 = 累计增长量 / (时间数列项数-1)=(320-200)/(5-1)=30
  误区:是除以4 不是5
  第12题 ——
  14. 经一番研究后,我们开发出了一个新的商品详情页中’相关商品’模块的算法,并且打算通过AB Test(50%用户保留原先的算法逻辑为控制组,50%用户使用新的算法逻辑为实验
组)来进行评估。假如你是此次实验的数据分析师,请问你会怎么评估控制组和实验组的表现?请按重要性列出最重要的三个指标并给出你的分析过程。
  「题目解析」
  相关商品的点击率=相关商品链接点击次数/当前页面浏览次数
  相关商品的____率=____行为发生次数/相关商品浏览行为次数
  当前商品与相关商品一同____的概率=共同____/当前商品____
  第13题 ——
  13. 请写sql语句:
  想要了解班级内同学的考试情况,现有一张成绩表表名为A,每行都包含以下内容(已知表中没有重复内容,但所有的考试结果都录入在了同一张表中,一个同学会有多条考试结果):
  student_id,course_name,score
  现在需要知道:
  每门课程得到成绩的同学人数
  每门课程的平均成绩
  如果对于每门课程来说,60分以下为不及格,高于60为及格,统计每门课程及格和不及格的人数
  「题目解析」
  官方答案:
  1.2.select course_name ,count(distinct student_id) as student_num ,avg(score) as avg_scorefrom Agroup by 1

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。