2020⼤数据⾯试题真题总结(附答案)版本更新时间更新内容
v1.02020-07-01新建
v1.12020-07-18朋友⾯试⼤数据⼯程师提供的关于架构及数仓⽅⾯的题⽬(智云健康)
v1.22020-08-08朋友⾯试数据专家提供的数据驱动,spark及flink⽅⾯⾯试题(华为,阿⾥,⼩影,拼便宜)
v1.32020-08-22朋友⾯试数据开发提供的关于hive及数仓⽅⾯的题⽬(美团)
v1.42020-09-06⽼徐提供蚂蚁阿⾥微店⾯试题(数仓⽅向)及朋友提供数据开发⾯试题(离线+实时)及软通⾯试题
v1.52020-09-13新增kafka⾯试题及答案
v1.62020-10-19新增美团数仓⾯试题及flink开发⾯试题
v1.72020-11-16新增某⼚⼤数据开发岗⾯试题
⼀.Hadoop
1.hdfs写流程
2.hdfs读流程
3.hdfs的体系结构
4.⼀个datanode 宕机,怎么⼀个流程恢复
5.hadoop 的 namenode 宕机,怎么解决
6.namenode对元数据的管理
7.元数据的checkpoint
8.yarn资源调度流程
9.hadoop中combiner和partition的作⽤
10.⽤mapreduce怎么处理数据倾斜问题?
11.shuffle 阶段,你怎么理解的
12.Mapreduce 的 map 数量 和 reduce 数量是由什么决定的 ,怎么配置
13.MapReduce优化经验
14.分别举例什么情况要使⽤ combiner,什么情况不使⽤?
15.MR运⾏流程解析
16.简单描述⼀下HDFS的系统架构,怎么保证数据安全?
17.在通过客户端向hdfs中写数据的时候,如果某⼀台机器宕机了,会怎么处理
18.Hadoop优化有哪些⽅⾯
19.⼤量数据求topN(写出mapreduce的实现思路)
20.列出正常⼯作的hadoop集中hadoop都分别启动哪些进程以及他们的作⽤
21.Hadoop总job和Tasks之间的区别是什么?
22.Hadoop⾼可⽤HA模式
23.简要描述安装配置⼀个hadoop集的步骤
24.fsimage和edit的区别
25.yarn的三⼤调度策略
26.hadoop的shell命令⽤的多吗?,说出⼀些常⽤的
27.⽤mr实现⽤户pv的top10?
28.⼀个⽂件只有⼀⾏,但是这⾏有100G⼤⼩,mr会不会切分,我们应该怎么解决
29.hdfs HA机制,⼀台namenode宕机了,joualnode,namenode,edit.log fsimage的变化
⼆.Hive
1.⼤表join⼩表产⽣的问题,怎么解决?
2.udf udaf udtf区别
3.hive有哪些保存元数据的⽅式,个有什么特点。
4.hive内部表和外部表的区别
5.⽣产环境中为什么建议使⽤外部表?
6.insert into 和 override write区别?
7.hive的判断函数有哪些
8.简单描述⼀下HIVE的功能?⽤hive创建表⼏种⽅式?hive表有⼏种?
9.线上业务每天产⽣的业务⽇志(压缩后>=3G),每天需要加载到hive的log表中,将每天产⽣的业务⽇志在压缩之后load到hive的log表时,最好使⽤的压缩算法是哪个,并说明其原因
10.若在hive中建⽴分区仍不能优化查询效率,建表时如何优化
11.union all和union的区别
12.如何解决hive数据倾斜的问题
13.hive性能优化常⽤的⽅法
14.简述delete,drop,truncate的区别
16.Hive ⾥边字段的分隔符⽤的什么?为什么⽤\t?有遇到过字段⾥ 边有\t 的情况吗,怎么处理的?为什么不⽤ Hive 默认的分隔符,默认的分隔符是什么?
17.分区分桶的区别,为什么要分区
18.mapjoin的原理
19.在hive的row_number中distribute by 和 partition by的区别
20.hive开发中遇到什么问题?
21.什么时候使⽤内部表,什么时候使⽤外部表
22.hive都有哪些函数,你平常⼯作中⽤到哪些
23.⼿写sql,连续活跃⽤户
24.left semi join和left join区别
26.说说印象最深的⼀次优化场景,hive常见的优化思路
distribute名词形式27.聊聊hive的执⾏引擎,spark和mr的区别?
28.hive的join底层mr是如何实现的?
29.sql问题,连续⼏天活跃的⽤户?
30.建好了外部表,⽤什么语句把数据⽂件加载到表⾥
31.Hive的执⾏流程?
32.hive的元数据信息存储在哪?
33.sql语句的执⾏顺序from-where-group by-having -select-order by -limit
<和where的区别
35.hive和传统数据库之间的区别
36.hive中导⼊数据的4种⽅式
37 下述sql在hive,sparksql两种执⾏引擎中,执⾏流程分别是什么,区别是什么?
38.hive的执⾏计划有看过吗,你⼀般会关注哪⼏个点
39.hive底层运⾏mr或者spark程序的时候语法树说⼀下
三.Spark
1.rdd的属性
2.算⼦分为哪⼏类(RDD⽀持哪⼏种类型的操作)
3.创建rdd的⼏种⽅式
4.spark运⾏流程
5.Spark中coalesce与repartition的区别
6.sortBy 和 sortByKey的区别
7.map和mapPartitions的区别
8.数据存⼊Redis 优先使⽤map mapPartitions foreach foreachPartions哪个
10.cache和checkPoint的⽐较
11.spark streaming流式统计单词数量代码
12.简述map和flatMap的区别和应⽤场景
13.计算曝光数和点击数
14.分别列出⼏个常⽤的transformation和action算⼦
15.按照需求使⽤spark编写以下程序,要求使⽤scala语⾔
16.spark应⽤程序的执⾏命令是什么?
17.Spark应⽤执⾏有哪些模式,其中哪⼏种是集模式
18.请说明spark中⼴播变量的⽤途
19.以下代码会报错吗?如果会怎么解决 val arr = new ArrayList[String]; arr.foreach(println)
20.写出你⽤过的spark中的算⼦,其中哪些会产⽣shuffle过程
21.Spark中rdd与partition的区别
22.请写出创建Dateset的⼏种⽅式
23.描述⼀下RDD,DataFrame,DataSet的区别?
24.描述⼀下Spark中stage是如何划分的?描述⼀下shuffle的概念
25.Spark 在yarn上运⾏需要做哪些关键的配置⼯作?如何kill -个Spark在yarn运⾏中Application
26.通常来说,Spark与MapReduce相⽐,Spark运⾏效率更⾼。请说明效率更⾼来源于Spark内置的哪些机制?请列举常见spark的运⾏模式?
27.RDD中的数据在哪?
28.如果对RDD进⾏cache操作后,数据在哪⾥?
29.Spark中Partition的数量由什么决定
30.Scala⾥⾯的函数和⽅法有什么区别
31.SparkStreaming怎么进⾏监控?
32.Spark判断Shuffle的依据?
33.Scala有没有多继承?可以实现多继承么?
34.Sparkstreaming和flink做实时处理的区别
35.Sparkcontext的作⽤
36.Sparkstreaming读取kafka数据为什么选择直连⽅式
37.离线分析什么时候⽤sparkcore和sparksql
38.Sparkstreaming实时的数据不丢失的问题
39.简述宽依赖和窄依赖概念,groupByKey,reduceByKey,map,filter,union五种操作哪些会导致宽依赖,哪些会导致窄依赖
40.数据倾斜可能会导致哪些问题,如何监控和排查,在设计之初,要考虑哪些来避免
41.有⼀千万条短信,有重复,以⽂本⽂件的形式保存,⼀⾏⼀条数据,请⽤五分钟时间,出重复出现最多的前10条
42.现有⼀⽂件,格式如下,请⽤spark统计每个单词出现的次数
43.共享变量和累加器
44.当 Spark 涉及到数据库的操作时,如何减少 Spark 运⾏中的数据库连接数?
45.特别⼤的数据,怎么发送到excutor中?
46.spark调优都做过哪些⽅⾯?
47.spark任务为什么会被yarn kill掉?
48.Spark on Yarn作业执⾏流程?yarn-client和yarn-cluster有什么区别?
49.Flatmap底层编码实现?
50.spark_1.X与spark_2.X区别
51.说说spark与flink
52.spark streaming如何保证7*24⼩时运⾏机制?
53.spark streaming是Exactly-Once吗?
四.Kafka
1.Kafka名词解释和⼯作⽅式
2.Consumer与topic关系
3.kafka中⽣产数据的时候,如何保证写⼊的容错性?
4.如何保证kafka消费者消费数据是全局有序的
5.有两个数据源,⼀个记录的是⼴告投放给⽤户的⽇志,⼀个记录⽤户访问⽇志,另外还有⼀个固定的⽤户基础表记录⽤户基本信息(⽐如学历,年龄等等)。现在要分析⼴告投放对与哪类⽤户更有效,请采⽤熟悉的技术描述解决思路。另外如果两个数据源都是实时数据源(⽐如来⾃kafka),他们数据在时间上相差5分钟,需要哪些调整来解决实时分析问题?
6.Kafka和SparkStreaing如何集成?
7.列举Kafka的优点,简述Kafka为什么可以做到每秒数⼗万甚⾄上百万消息的⾼效分发?
8.为什么离线分析要⽤kafka?
9.Kafka怎么进⾏监控?
10.Kafka与传统的消息队列服务有很么不同
11.Kafka api low-level与high-level有什么区别,使⽤low-level需要处理哪些细节
12.Kafka的ISR副本同步队列
13.Kafka消息数据积压,Kafka消费能⼒不⾜怎么处理?
14.Kafka中的ISR、AR⼜代表什么?
15.Kafka中的HW、LEO等分别代表什么?
16.哪些情景会造成消息漏消费?
17.当你使⽤kafka-topics.sh创建了⼀个topic之后,Kafka背后会执⾏什么逻辑?
20.Kafka有内部的topic吗?如果有是什么?有什么所⽤?
21.聊⼀聊Kafka Controller的作⽤?
22.失效副本是指什么?有那些应对措施?
23.Kafka 都有哪些特点?
24.请简述下你在哪些场景下会选择 Kafka?
25.Kafka 的设计架构你知道吗?
26.Kafka 分区的⽬的?
27.你知道 Kafka 是如何做到消息的有序性?
28.Kafka 的⾼可靠性是怎么实现的?
29.请谈⼀谈 Kafka 数据⼀致性原理
30.ISR、OSR、AR 是什么?
31.LEO、HW、LSO、LW等分别代表什么
32.Kafka 在什么情况下会出现消息丢失?
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论