史上最全的大数据面试题,大数据开发者必看--688IT编程网

【某公司笔试面试题】

1\使用mr，spark ,spark sql编写word count程序

【Spark 版本】

val conf=new SparkConf().setAppName("wd").setMaster("local[1]")

val sc=new SparkContext(conf,2)

//加载

val File("tructField("name",DataTypes.StringType,true)")

val paris=lines.flatMap(line=>line.split("^A"))

val words=paris.map((_,1))

val duceByKey(_+_).sortBy(x=>x._1,false)

//打印

result.foreach(

wds=>{

println("单词："+wds._1+" 个数："+wds._2)

}

)

sc.stop()

【spark sql版本】

val conf=new SparkConf().setAppName("sqlWd").setMaster("local[1]")

val sc=new SparkContext(conf)

val sqlContext=new SQLContext(sc)

//加载

val File("E:\idea15\createRecommeder\")

val words=lines.flatMap(x=>x.split(" ")).map(y=>Row(y))

val structType=StructType(Array(StructField("name",DataTypes.StringType,true)))

val ateDataFrame(rows,structType)

df.registerTempTable("t_word_count")

ister("num_word",(name:String)=>1)

sqlContext.sql("select name,num_word(name) from t_word_count").l("name")).count().show()

sc.stop()

2\hive的使用，内外部表的区别，分区作用，UDF和Hive优化

(1)hive使用：仓库、工具

(2)hive内外部表：内部表数据永久删除，外部表数据删除后、其他人依然可以访问

(3)分区作用：防止数据倾斜

(4)UDF函数：用户自定义的函数(主要解决格式，计算问题)，需要继承UDF类

java代码实现

class TestUDFHive extends UDF {

public String evalute(String str){

try{

return "hello"+str

}catch(Exception e){

return str+"error"

}

(5)Hive优化：看做mapreduce处理

a\排序优化：sort by 效率高于 order by

b\分区：使用静态分区 (statu_date="20160516",location="beijin")，每个分区对应hdfs上的一个目录

c\减少job和task数量：使用表链接操作

d\解决groupby数据倾斜问题：设置upby.skewindata=true ，那么hive会自动负载均衡

e\小文件合并成大文件：表连接操作

f\使用UDF或UDAF函数：wwwblogs/ggjucheng/archive/2013/02/01/2888819.html

3\Hbase的rk设计，Hbase优化

java面试题csdn

a\rowkey:hbase三维存储中的关键(rowkey：行键，columnKey(family+quilaty)：列键，timestamp：时间戳)

\rowkey字典排序、越短越好

\使用id+时间：9527+20160517 \使用hash散列：dsakjkdfuwdsf+9527+20160518

\应用中，rowkey 一般10~100bytes,8字节的整数倍，有利于提高操作系统性能

b\Hbase优化

\分区：RegionSplit()方法 \NUMREGIONS=9

\column不超过3个

\硬盘配置，便于regionServer管理和数据备份及恢复

\分配合适的内存给regionserver

其他：

hbase查询

(1)get

(2)scan

使用startRow和endRow限制

4\Linux常用操作

a\awk：

awk -F:`BEGIN{print "name ip "}{print $1 $7} END{print "结束"}` /etc/passwd

last | head -5 |awk `BEGIN{print "name ip"}{print $1 $3}END{print "结束了"}`

b\sed

5\java线程2种方式实现、设计模式、链表操作、排序

(1)2种线程实现

a\Thread类继承

TestCL th=new TestCL()//类继承Thread

th.start()

b\实现Runnable接口

Thread th=new Thread(new Runnable(){

public void run(){

//实现

}

})

th.start()

(2)设计模式，分为4类

a\创建模式：如工厂模式、单例模式

b\结构模式：代理模式

c\行为模式：观察者模式

d\线程池模式

6\【最熟悉的一个项目简介、架构图、使用的技术、你负责哪块】

7\cdh集监控

(1)数据库监控 (2)主机监控 (3)服务监控 (4)活动监控

8\计算机网络工作原理

将分散的机器通过数据通信原理连接起来，实现共享！

9\hadoop生态系统

hdfs\mapreduce\hive\hbase\zookeeper\flume

hdfs原理及各个模块的功能 mapreduce原理 mapreduce优化数据倾斜

11系统维护：hadoop升级datanode节点

12\【讲解项目要点：数据量、多少人、分工、运行时间、项目使用机器、算法、技术】

13\【学会向对方提问】

14\jvm运行机制及内存原理

运行：

I加载.class文件

II管理并且分配内存

III垃圾回收

内存原理：

IJVM装载环境和配置

II装载JVM.dll 并初始化JVM.dll

IV 处理class类

15\hdfs、yarn参数调优

mapreduce.job.jvm.num.tasks

默认为1，设置为 -1，重用jvm

16\Hbase、Hive、impala、zookeeper、Storm、spark原理和使用方法、使用其架构图讲解

【某公司笔试题】

1、如何为一个hadoop任务设置mappers的数量

答案：

使用job.setNumMapTask(int n)手动分割，这是不靠谱的

官方文档：“Note: This is only a hint to the framework”说明这个方法只是提示作用，不起决定性作用

实际上要用公式计算：

Max（min.split，min（max.split，block））就设置分片的最大最下值 computeSplitSize（）设置

参考：blog.csdn/strongerbit/article/details/7440111

2、有可能使hadoop任务输出到多个目录中么？如果可以，怎么做？

答案：在1.X版本后使用MultipleOutputs.java类实现

源码：

MultipleOutputs.addNamedOutput(conf, "text2", TextOutputFormat.class, Long.class, String.class);

MultipleOutputs.addNamedOutput(conf, "text3", TextOutputFormat.class, Long.class, String.class);

参考：my.oschina/leejun2005/blog/94706

发音：Multiple['m?lt?pl]--》许多的

3、如何为一个hadoop任务设置要创建的reducer的数量

答案：job.setNumReduceTask(int n)

或者调整l中的duce.tasks.maximum默认参数值

4、在hadoop中定义的主要公用InputFormats中，哪一个是默认值：

(A)TextInputFormat

(B)KeyValueInputFormat

(C)SequenceFileInputFormat

答案：A

5、两个类TextInputFormat和KeyValueTextInputFormat的区别？

答案：

FileInputFormat的子类：

TextInputFormat（默认类型，键是LongWritable类型，值为Text类型，key为当前行在文件中的偏移量，value为当前行本身）；

KeyValueTextInputFormat(适合文件自带key，value的情况，只要指定分隔符即可，比较实

用，默认是\t分割)；

688IT编程网

史上最全的大数据面试题,大数据开发者必看

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

史上最全的大数据面试题,大数据开发者必看

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式