大数据面试题V2.0,641页,39w字--688IT编程网

⼤数据⾯试题V2.0，641页，39w字

⼤家好，我是蓦然

原⽂链接如下：

⼤数据⾯试题V2.0共401道题，641页，近39w字，图⽚数量就没计算了，有的题⽬就是展开来概述了，所以不⼩⼼就页数有点超标，初稿刚出来时预计是300-400页。

下⾯⼤概介绍下这版⾯试题的⼤概内容，主要分为以下⼏部分：

Hadoop⾯试题：80道

Zookeeper⾯试题：20道

Hive⾯试题：29道

parameters表达什么意思

Flume⾯试题：9道

Kafka⾯试题：51到

HBase⾯试题：33道

Spark⾯试题：81道

Flink⾯试题：27道

数仓⾯试题：21道

综合⾯试题：32道

c++常量和变量的区别数据库（MySQL）⾯试题：18道

总共401道题

⼀、Hadoop⾯试题

1、Hadoop基础

介绍下Hadoop

Hadoop的特点

说下Hadoop⽣态圈组件及其作⽤

Hadoop主要分哪⼏个部分?他们有什么作⽤?

Hadoop1x，2x，3x的区别

Hadoop集⼯作时启动哪些进程?它们有什么作⽤?

搭建Hadoop集的xml⽂件有哪些?

Hadoop的checkpoint流程

Hadoop的默认块⼤⼩是多少?为什么要设置这么⼤?

Block划分的原因

Hadoop常见的压缩算法?

Hadoop作业提交到YARN的流程?

Hadoop的Combiner的作⽤

Hadoop序列化和反序列化

Hadoop的运⾏模式

Hadoop⼩⽂件处理问题

HDFS部分

HDFS⽂件写⼊和读取流程

HDFS组成架构

介绍下HDFS，说下HDFS优缺点，以及使⽤场景

HDFS作⽤

HDFS的容错机制

HDFS的存储机制

HDFS的副本机制

HDFS的常见数据格式，列式存储格式和⾏存储格式异同点，列式存储优点有哪些? HDFS如何保证数据不丢失?

HDFS NameNode⾼可⽤如何实现?需要哪些⾓⾊?

HDFS的⽂件结构?

HDFS的默认副本数?为什么是这个数量?如果想修改副本数怎么修改?

介绍下HDFS的Block

HDFS的块默认⼤⼩，64M和128M是在哪个版本更换的?怎么修改默认块⼤⼩? HDFS的block为什么是128M?增⼤或减⼩有什么影响?

HDFS HA怎么实现?是个什么架构?

导⼊⼤⽂件到HDFS时如何⾃定义分⽚?

HDFS的mapper和reducer的个数如何确定?reducer的个数依据是什么?

HDSF通过哪个中间组件去存储数据

HDFS跨节点怎么进⾏数据迁移

HDFS的数据⼀致性靠什么保证?

HDFS怎么保证数据安全

HDFS中向DataNode写数据失败了怎么办

Hadoop2.xHDFS快照

2、MapReduce部分

介绍下MapReduce

MapReduce优缺点

MapReduce架构

MapReduce⼯作原理

MapReduce哪个阶段最费时间

MapReduce中的Combine是⼲嘛的?有什么好处?

MapReduce为什么⼀定要有环型缓冲区

MapReduce为什么⼀定要有Shuffle过程

MapReduce的Shuffle过程及其优化

MapReduce Shuffle的排序算法

MapReduce的数据处理过程

Map join的原理(实现)?应⽤场景?

Reduce join如何执⾏(原理)

MapReduce为什么不能产⽣过多⼩⽂件

MapReduce分区及作⽤

Map的分⽚有多⼤

MapReduce join两个表的流程?

⼿撕⼀段简单的MapReduce程序

reduce任务什么时候开始?

MapReduce的reduce使⽤的是什么排序?

MapReduce怎么确定MapTask的数量?

MapReduce的map进程和reducer进程的jvm垃圾回收器怎么选择可以提⾼吞吐量?

MapReduce的task数⽬划分

MapReduce作业执⾏的过程中，中间的数据会存在什么地⽅?不会存在内存中么?

Mapper端进⾏combiner之后，除了速度会提升，那从Mapper端到Reduece端的数据量会怎么变? map输出的数据如何超出它的⼩⽂件内存之后，是落地到磁盘还是落地到HDFS中?

Map到Reduce默认的分区机制是什么?

结合wordcount述说MapReduce，具体各个流程，map怎么做，reduce怎么做

类外容器和简单容器区别MapReduce数据倾斜产⽣的原因及其解决⽅案

MapReduce运⾏过程中会发⽣OOM，OOM发⽣的位置?

MapReduce⽤了⼏次排序，分别是什么?

MapReduce压缩⽅式

MapReduce中怎么处理⼀个⼤⽂件

3、YARN部分

介绍下YARN

YARN有什么优势，能解决什么问题?

YARN容错机制

YARN⾼可⽤

YARN调度器

YARN中Container是如何启动的?

YARN的改进之处，Hadoop3.x相对于Hadoop2.x?

temper英文

YARN监控

⼆、Zookeeper⾯试题

介绍下Zookeeper是什么?

Zookeeper有什么作⽤?优缺点?有什么应⽤场景?

Zookeeper的选举策略，leader和follower的区别?

Zookeeper的节点类型有哪些?分别作⽤是什么?

Zookeeper的节点数怎么设置⽐较好?

Zookeeper架构

Zookeeper的功能有哪些

Zookeeper的数据结构(树)?基于它实现的分布式锁?基于它实现的Master选举？基于它的集管理? Zookeeper的注册(watch)机制使⽤场景?

介绍下Zookeeper消息的发布订阅功能

Zookeeper的分布式锁实现⽅式?

Zookeeper怎么保证⼀致性的

Zookeeper的zab协议(原⼦⼴播协议)?

ZAB是以什么算法为基础的?ZAB流程?

Zookeeper的通知机制

Zookeeper脑裂问题

Zookeeper的Paxos算法

Zookeeper的协议有哪些?

Zookeeper如何保证数据的⼀致性?

Zookeeper的数据存储在什么地⽅?

Zookeeper从三台扩容到七台怎么做?

三、Hive⾯试题

说下为什么要使⽤Hive?Hive的优缺点?Hive的作⽤是什么?

说下Hive是什么?跟数据仓库区别?

Hive架构

Hive内部表和外部表的区别?

为什么内部表的删除，就会将数据全部删除，⽽外部表只删除表结构?为什么⽤外部表更好?

Hive建表语句?创建表时使⽤什么分隔符?

Hive删除语句外部表删除的是什么?

Hive数据倾斜以及解决⽅案

Hive如果不⽤参数调优，在map和reduce端应该做什么

Hive的⽤户⾃定义函数实现步骤与流程

Hive的三种⾃定义函数是什么?实现步骤与流程?它们之间的区别?作⽤是什么?

Hive的cluster by、sortby、distribute by、order by区别?

Hive分区和分桶的区别

Hive的执⾏流程

Hive SQL转化为MR的过程?

Hive SOL优化处理

Hive的存储引擎和计算引擎

Hive中如何调整Mapper和Reducer的数⽬

介绍下知道的Hive窗⼝函数，举⼀些例⼦

Hive的count的⽤法

Hive的join操作原理，left join、right join、inner join、outer join的异同?

Hive如何优化join操作mysql面试题基础知识

Hive的map join

Hive语句的运⾏机制，例如包含wherehaving、groupby、orderby，整个的执⾏过程? Hive使⽤的时候会将数据同步到HDFS，⼩⽂件问题怎么解决的?

Hive Shuffle的具体过程

Hive有哪些保存元数据的⽅式，都有什么特点?

Hive SOL实现查询⽤户连续登陆，讲讲思路

Hive的开窗函数有哪些

四、Flume⾯试题

介绍下Flume

Flume架构

说下Flume事务机制

介绍下Flume采集数据的原理?底层实现?

Flume如何保证数据的可靠性adspower浏览器

Flume传输数据时如何保证数据⼀致性(可靠性)

Flume

如何监控消费型Flume的消费情况

Kafka和Flume是如何对接的?

五、Kafka⾯试题

介绍下Kafka，Kafka的作⽤?Kafka的组件?适⽤场景?

说下Kafka架构

说下Kafka的特点，优缺点

688IT编程网

大数据面试题V2.0,641页,39w字

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

大数据面试题V2.0,641页,39w字

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则