一线大厂大数据面试真题解析(30道)--688IT编程网

一线大厂大数据面试真题解析（30道）

简

1. 怎么查看Hive有什么自带函数?怎么查看函数的详细信息? (腾讯) (1) 问题分析

考官主要考核你对Hive命令的掌握程度，因此需要说出查看Hive自带函数的命令和查看函数详细信息的命令。

(2) 核心问题回答

-- 查看系统自带函数

show functions;

-- 显示自带函数的用法

desc function upper;

或

desc function extended upper;

2. 写出你常用的HDFS命令? (京东)

(1) 问题分析

考官主要考核你对HDFS命令的梳理程度，因此需要讲出常用的HDFS命令，至少10个。

(2) 核心问题回答

-mkdir：在HDFS上创建目录;

-moveFromLocal：从本地剪切粘贴到HDFS

-appendToFile：追加一个文件到已经存在的文件末尾

-cat：显示文件内容

-copyFromLocal：从本地文件系统中拷贝文件到HDFS路径

-copyToLocal：从HDFS拷贝到本地

-cp：从HDFS的一个路径拷贝到HDFS的另一个路径

mv：在HDFS目录中移动文件

-tail：显示一个文件的末尾

-rm：删除文件或文件夹

-rmdir：删除空目录

-du：统计文件夹的大小信息

-setrep：设置HDFS中文件的副本数量

-lsr：递归查看根目录下所有文件和文件夹

-df：统计文件系统的可用空间信息

-touchz：在Hadoop指定目录下新建一个空文件

3. Redis分布式锁怎么实现? (京东金融)

(1) 问题分析

考官主要考核你对Redis分布式锁的理解，因此需要讲出Redis分布式锁的概念以及具体实现即可。

(2) 核心问题回答

分布式锁是控制分布式系统之间同步访问共享资源的一种方式，其具体实现是使用set命令获取分布式锁，使用Redis+lua脚本释放锁。

4. HDFS文件系统中,Fsimage和Edit的区别? (水滴互助)

(1) 问题分析

考官主要考核你对Fsimage和Edit的理解，因此需要讲出Fsimage和Edit的概念和区别即可。

(2) 核心问题回答

Fsimage镜像文件：是元数据的一个持久化的检查点，包含Hadoop文件系统中的所有目录和文件元数据信息，但不包含文件块位置的信息。文件块位置信息只存储在内存中，是在DataNode加入集的时候,NameNode询问DataNode得到的，并且间断的更新。

•Edits编辑日志：存放的是Hadoop文件系统的所有更改操作(文件创建，删除或修改)，文件系统客户端执行的更改操作首先会被记录到Edits文件中。

•相同点:

• Fsimage和Edits文件都是经过序列化的，在NameNode启动时，它会将Fsimage文件中的内容加载到内存中，之后再执行Edits文件中的各项操作，使得内存中的元数据和实际的同步，存在内存中的元数据支持客户端的读操作，也是完整的元数据。

•不同点:

•当客户端对HDFS中的文件进行新增或者修改操作，操作记录首先被记入Edits日志文件中，当客户端操作成功后，相应的元数据会更新到内存元数据中.因为Fsimage文件一般都很大(GB级别的很常见)，如果所有的更新操作都往Fsimage文件中添加，这样会导致系统运行的十分缓慢。

• HDFS这种设计实现：一是内存中数据更新、查询快，极大缩短了操作响应时间；二是内存中元数据丢失风险颇高(断电等)，因此辅佐元数据镜像文件(Fsimage)+编辑日志文件(Edits)的备份机制进行确保元数据的安全。

5. Flume的做了什么? (泰康保险)

(1) 问题分析

考官主要考核你对Flume的理解，因此需要讲出Flume的作用即可。

(2) 核心问题回答

的位置是在Source和Channel之间，当我们为Source指定后，在中会得到Event，从而根据需求对Event进行保留或舍弃操作，舍弃的数据不会进入Channel中。

6. HDFS如何保证数据安全性？ (中关村在线)

(1) 问题分析

HDFS作为Hadoop中很重要的组件，需要理解它的原理，这部分面试官想考察的是你对基础的理解。

(2) 核心问题回答

a) HDFS是典型的Master/Slave架构，它往往是一个NameNode加多个DataNode组成,NameNode是集

的；且HDFS中是分块存储的，为了容错文件的每个Block都会有副本。

b) HBase只支持一次写入多次读出的场景且不支持文件的随机修改。

c) 第一个副本一般放置在与Client（客户端）所在的同一节点上（若客户端无DataNode，则随机放），

第

二个副本放置到与第一个副本同一机架的不同节点，第三个副本放到不同机架的DataNode节点，当取用时遵循就近原则；

d) DataNode已Block为单位，每3s报告心跳状态，做10min内不报告心跳状态则NameNode认为Block已

死掉，NameNode会把其上面的数据备份到其他一个DataNode节点上，保证数据的副本数量；

e) Datanode会默认每小时把自己节点上的所有块状态信息报告给NameNode；

f) 采用Safemode模式：DataNode会周期性的报告Block信息且HDFS元数据采用SecondaryName备份或

者HA备份；

(3) 问题扩展

Hadoop三大组件MapReduce，HDFS，Yarn都要做到了解原理。HDFS读写流程，MapReduce的原理图也要做到理解。

(4) 结合项目使用

清楚哪些组件和HDFS结合时候用的，像Hive，HBase都有结合HDFS使用。

7. Hive跟HBase的区别是什么？（e代驾）

(1) 问题分析

考察对Hive,HBase大数据相关组件的了解程度，考察基础，可以从Hive，HBase概念延伸到区别然后结合实际做一个回答。

(2) 核心问题回答

Hive：是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类似于SQL查询用于解决海量结构化日志的数据统计(海量的结构化数据的运算分析)，本质为将HiveSQL转化成

MapReduce程序或者Spark程序(分布式运算框架)

Hive的元数据默认存储在自带的derby数据库中，推荐使用MySQL，而原始数据一般储存在HDFS中.

• HBase：HBase是一个高可靠性、高性能(快)、面向列、可伸缩的分布式数据库系统，HBase支持单行事务，数据存储在HDFS中。适用于单表数据超千万，并发量高，数据分析需求弱，无需过于灵活和实时，与Hadoop 一样，HBase目标主要依靠横向扩展，通过不断增加廉价的商用服务器，来增加计算和存储能力。

•二者区别:

• Hive和HBase是两种基于Hadoop的不同技术：Hive是一种类SQL的引擎，并且运行MapReduce任务，HBase是一种在Hadoop之上的NoSQL的Key/Value数据库，只支持简单的行列操作。当然，这两种工具是可以同时使用的。Hive可以用来进行统计查询，HBase可以用来进行快速的实时查询，数据也可以从Hive写到HBase，设置再从HBase写回Hive。

(3) 问题扩展

类似的数据库有很多，要清楚他们之间的区别，比如MySQL和HBase，Redis和HBase等等，要清楚他们的核心功能以及特性异同。

(4) 综合项目使用

知道在哪种场景下，使用哪种技术。当所存储数据需要快速插入查询时，使用HBase。

当数据需要大量聚合运算，计算分析结果时，使用hive存储，所以Hive是数仓，etl的常用工具。

8. 请说明Hive中SORT BY,ORDER BY,CLUSTER BY,DISTRIBUTE BY各代表什么意思？（01财经）

(1) 问题分析

主要考察HiveSQL基础。在回答这几种是什么的情况下，再把各自的特点结合讲一下。

(2) 核心问题回答

1）SORT BY：会在每个reduce中排序，全局无序.但是分区内有序；

2）ORDER BY：对输入做全局排序，因此只有一个Reduce，当输入规模较大时，会消耗很大的时间

3）DISTRIBUTE BY：根据字段进行分区，类似MR中Partition，进行分区，结合sort by使用。

4）CLUSTER BY：当DISTRIBUTE BY和SORT BY字段相同时，可以使用CLUSTER BY方式。CLUSTER BY 除了具有DISTRIBUTE BY的功能外还兼具SORT BY的功能。但是排序只能是升序排序，不能指定排序规则为ASC或者DESC。

(3) 问题扩展

Hive中常用分析函数：

Row_Number()：从1开始，按照顺序，生成分组内记录的序列,Row_Number()的值不会存在重复，当排序的值相同时，按照表中记录的顺序进行排列；通常用于获取分组内排序第一的记录；获取一个Session中的第一条refer等。

Rank()：生成数据项在分组中的排名，排名相等会在名次中留下空位。

Dense_Rank()：生成数据项在分组中的排名，排名相等会在名次中不会留下空位。

(4) 综合项目使用

HiveSQL在实际生产中，数仓这部分非常常用的一个工具，所以要重视起来，项目中常用的一些分析函数一定要记住3、5个。

中

1. Kafka零拷贝的原理?(京东)

(1) 问题分析

考官主要考核你对Kafka零拷贝的理解，因此需要讲出零拷贝的原理即可.

(2) 核心问题回答

零拷贝并不是不需要拷贝，而是减少不必要的拷贝次数，通常是说在IO读写过程中.

场景：读取文件,Socket发送

传统方式实现：先读取、再发送，实际经过1~4四次Copy.

a.第一次：将磁盘文件，读取到操作系统内核缓冲区;

hbase工作原理b.第二次：将内核缓冲区的数据,Copy到Application应用程序的Buffer;

c.第三步：将Application应用程序Buffer中的数据,Copy到Socket网络发送缓冲区(属于操作

系统内核的缓冲区);

d.第四次：将Socket Suffer的数据,Copy到网络协议栈，由网卡进行网络传输.

•零拷贝实现:

•零拷贝指的是Kafka将磁盘数据通过DMA(直接存储器访问)拷贝到内核态Buffer，直接通过DMA拷贝到NIC Buffer(Socket Buffer)，无需CPU拷贝。

•具体实现：数据传输通过TransportLayer来完成，其子类PlaintextTransportLayer通过Java NIO的FileChannel的TransferTo和TransferFrom方法实现零拷贝。

2. HiveSQL语句中SELECT FROM WHERE GROUP BY LIMIT ORDER BY的执行顺序（京东）

(1) 问题分析

掌握sql的执行原理并进行优化是一项非常重要的技能，结合Hive SQL如何写能更加优化来进行回答。(2) 核心问题讲解

SELECT (查询) --最后一步执行

FROM（进行表的查和加载） --第一步执行

WHERE(过滤) --第二步执行

GROUP BY(执行分组后的相关计算) --第三步执行

ORDER BY(对于结果集进行排序) --第四步执行

LIMIT(排序) --第五步执行

•这里再结合Hive中写sql时的一些提高效率节省资源的部分：

• a) 比如使用一个表的字段来约束另一个表时，用IN来代替JOIN，IN比JOIN快.

• b) 使用GROUP BY去重COUNT(1)统计来代替 COUNT DISTINCT去重统计.

• c) 应尽量避免在 WHERE 子句中对字段进行 NULL 值判断；避免WHERE子句中使用!= <>操作符;

• d) 避免WHERE子句中使用OR连接条件，会导致引擎放弃索引而进行全表扫描.

• e) 用EXISTS代替 IN.

• f) 尽量不要使用UNION去掉重复的记录，而是使用UNION ALL再用GROUP BY去重.

(3) 问题扩展

知道了Hive的执行顺序后，我们来看几条可以提升Hive速度的方式。

•原则一：尽量加上分区；

•原则二：连接表时使用相同的关键词，这样只会产生一个Job；

•原则三：减少每个阶段的数据量，有时候为了减少代码量，包含了多余的字段，导致速度会变慢一些，所以我们只选出需要的，在JOIN表前就进行过滤；

•原则四：Map端聚合。hive.map.aggr=true; // 用于设定是否在 Map 端进行聚合，默认值为真；

• upby.mapaggr.checkinterval=100000; // 用于设定 Map 端进行聚合操作的条目数；

(4) 综合项目使用

688IT编程网

一线大厂大数据面试真题解析(30道)

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

688IT编程网

一线大厂大数据面试真题解析(30道)

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林 重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

随机森林重要性