⼤数据⾯试题V2.0,641页,39w字
⼤家好,我是蓦然
原⽂链接如下:
⼤数据⾯试题V2.0共401道题,641页,近39w字,图⽚数量就没计算了,有的题⽬就是展开来概述了,所以不⼩⼼就页数有点超标,初稿刚出来时预计是300-400页。
下⾯⼤概介绍下这版⾯试题的⼤概内容,主要分为以下⼏部分:
Hadoop⾯试题:80道
Zookeeper⾯试题:20道
Hive⾯试题:29道
parameters表达什么意思
Flume⾯试题:9道
Kafka⾯试题:51到
HBase⾯试题:33道
Spark⾯试题:81道
Flink⾯试题:27道
数仓⾯试题:21道
综合⾯试题:32道
c++常量和变量的区别数据库(MySQL)⾯试题:18道
总共401道题
⼀、Hadoop⾯试题
1、Hadoop基础
介绍下Hadoop
Hadoop的特点
说下Hadoop⽣态圈组件及其作⽤
Hadoop主要分哪⼏个部分?他们有什么作⽤?
Hadoop1x,2x,3x的区别
Hadoop集⼯作时启动哪些进程?它们有什么作⽤?
搭建Hadoop集的xml⽂件有哪些?
Hadoop的checkpoint流程
Hadoop的默认块⼤⼩是多少?为什么要设置这么⼤?
Block划分的原因
Hadoop常见的压缩算法?
Hadoop作业提交到YARN的流程?
Hadoop的Combiner的作⽤
Hadoop序列化和反序列化
Hadoop的运⾏模式
Hadoop⼩⽂件处理问题
HDFS部分
HDFS⽂件写⼊和读取流程
HDFS组成架构
介绍下HDFS,说下HDFS优缺点,以及使⽤场景
HDFS作⽤
HDFS的容错机制
HDFS的存储机制
HDFS的副本机制
HDFS的常见数据格式,列式存储格式和⾏存储格式异同点,列式存储优点有哪些? HDFS如何保证数据不丢失?
HDFS NameNode⾼可⽤如何实现?需要哪些⾓⾊?
HDFS的⽂件结构?
HDFS的默认副本数?为什么是这个数量?如果想修改副本数怎么修改?
介绍下HDFS的Block
HDFS的块默认⼤⼩,64M和128M是在哪个版本更换的?怎么修改默认块⼤⼩? HDFS的block为什么是128M?增⼤或减⼩有什么影响?
HDFS HA怎么实现?是个什么架构?
导⼊⼤⽂件到HDFS时如何⾃定义分⽚?
HDFS的mapper和reducer的个数如何确定?reducer的个数依据是什么?
HDSF通过哪个中间组件去存储数据
HDFS跨节点怎么进⾏数据迁移
HDFS的数据⼀致性靠什么保证?
HDFS怎么保证数据安全
HDFS中向DataNode写数据失败了怎么办
Hadoop2.xHDFS快照
2、MapReduce部分
介绍下MapReduce
MapReduce优缺点
MapReduce架构
MapReduce⼯作原理
MapReduce哪个阶段最费时间
MapReduce中的Combine是⼲嘛的?有什么好处?
MapReduce为什么⼀定要有环型缓冲区
MapReduce为什么⼀定要有Shuffle过程
MapReduce的Shuffle过程及其优化
MapReduce Shuffle的排序算法
MapReduce的数据处理过程
Map join的原理(实现)?应⽤场景?
Reduce join如何执⾏(原理)
MapReduce为什么不能产⽣过多⼩⽂件
MapReduce分区及作⽤
Map的分⽚有多⼤
MapReduce join两个表的流程?
⼿撕⼀段简单的MapReduce程序
reduce任务什么时候开始?
MapReduce的reduce使⽤的是什么排序?
MapReduce怎么确定MapTask的数量?
MapReduce的map进程和reducer进程的jvm垃圾回收器怎么选择可以提⾼吞吐量?
MapReduce的task数⽬划分
MapReduce作业执⾏的过程中,中间的数据会存在什么地⽅?不会存在内存中么?
Mapper端进⾏combiner之后,除了速度会提升,那从Mapper端到Reduece端的数据量会怎么变? map输出的数据如何超出它的⼩⽂件内存之后,是落地到磁盘还是落地到HDFS中?
Map到Reduce默认的分区机制是什么?
结合wordcount述说MapReduce,具体各个流程,map怎么做,reduce怎么做
类外容器和简单容器区别MapReduce数据倾斜产⽣的原因及其解决⽅案
MapReduce运⾏过程中会发⽣OOM,OOM发⽣的位置?
MapReduce⽤了⼏次排序,分别是什么?
MapReduce压缩⽅式
MapReduce中怎么处理⼀个⼤⽂件
3、YARN部分
介绍下YARN
YARN有什么优势,能解决什么问题?
YARN容错机制
YARN⾼可⽤
YARN调度器
YARN中Container是如何启动的?
YARN的改进之处,Hadoop3.x相对于Hadoop2.x?
temper英文
YARN监控
⼆、Zookeeper⾯试题
介绍下Zookeeper是什么?
Zookeeper有什么作⽤?优缺点?有什么应⽤场景?
Zookeeper的选举策略,leader和follower的区别?
Zookeeper的节点类型有哪些?分别作⽤是什么?
Zookeeper的节点数怎么设置⽐较好?
Zookeeper架构
Zookeeper的功能有哪些
Zookeeper的数据结构(树)?基于它实现的分布式锁?基于它实现的Master选举?基于它的集管理? Zookeeper的注册(watch)机制使⽤场景?
介绍下Zookeeper消息的发布订阅功能
Zookeeper的分布式锁实现⽅式?
Zookeeper怎么保证⼀致性的
Zookeeper的zab协议(原⼦⼴播协议)?
ZAB是以什么算法为基础的?ZAB流程?
Zookeeper的通知机制
Zookeeper脑裂问题
Zookeeper的Paxos算法
Zookeeper的协议有哪些?
Zookeeper如何保证数据的⼀致性?
Zookeeper的数据存储在什么地⽅?
Zookeeper从三台扩容到七台怎么做?
三、Hive⾯试题
说下为什么要使⽤Hive?Hive的优缺点?Hive的作⽤是什么?
说下Hive是什么?跟数据仓库区别?
Hive架构
Hive内部表和外部表的区别?
为什么内部表的删除,就会将数据全部删除,⽽外部表只删除表结构?为什么⽤外部表更好?
Hive建表语句?创建表时使⽤什么分隔符?
Hive删除语句外部表删除的是什么?
Hive数据倾斜以及解决⽅案
Hive如果不⽤参数调优,在map和reduce端应该做什么
Hive的⽤户⾃定义函数实现步骤与流程
Hive的三种⾃定义函数是什么?实现步骤与流程?它们之间的区别?作⽤是什么?
Hive的cluster by、sortby、distribute by、order by区别?
Hive分区和分桶的区别
Hive的执⾏流程
Hive SQL转化为MR的过程?
Hive SOL优化处理
Hive的存储引擎和计算引擎
Hive中如何调整Mapper和Reducer的数⽬
介绍下知道的Hive窗⼝函数,举⼀些例⼦
Hive的count的⽤法
Hive的join操作原理,left join、right join、inner join、outer join的异同?
Hive如何优化join操作mysql面试题基础知识
Hive的map join
Hive语句的运⾏机制,例如包含wherehaving、groupby、orderby,整个的执⾏过程? Hive使⽤的时候会将数据同步到HDFS,⼩⽂件问题怎么解决的?
Hive Shuffle的具体过程
Hive有哪些保存元数据的⽅式,都有什么特点?
Hive SOL实现查询⽤户连续登陆,讲讲思路
Hive的开窗函数有哪些
四、Flume⾯试题
介绍下Flume
Flume架构
说下Flume事务机制
介绍下Flume采集数据的原理?底层实现?
Flume如何保证数据的可靠性adspower浏览器
Flume传输数据时如何保证数据⼀致性(可靠性)
Flume
如何监控消费型Flume的消费情况
Kafka和Flume是如何对接的?
五、Kafka⾯试题
介绍下Kafka,Kafka的作⽤?Kafka的组件?适⽤场景?
说下Kafka架构
说下Kafka的特点,优缺点

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。