上海校区大数据企业面试真题
版本:V1.4.0
一、米哈游
1.什么是Flink的非barrier对齐,如何实现?
2.flink的内存管理?
3.flink的序列化机制?
4.flink提交job的方式以及参数如何设置? 页面提交和客户端提交有什么区别?
5.你们flink集规模?
6.flink提交作业的流程,以及与yarn是如何交互的?
7.flink的checkpoint机制以及精准一次性消费如何实现?
8.flink的状态是什么,分为几种?
9.SparkContext里面主要做了哪些工作?
10.ConcurrentHashMap的底层实现原理?
11.什么是Watermark及主要作用?
12.flink是如何管理kakfa的offset,使用什么类型的状态保存offset?
二、美团外包
1.实时方面
a)主攻哪个方向
衣服搭配颜表大图b)我说的实时
c)具体介绍一下具体做了哪些工作.
d)为什么要做sparkstreaming到Flink的转化.
e)在什么场景下需要这么高的实时性.
f)既然是开窗为什么一定要转FLink.
g)遇到SparkStreaming不太能解决的问题.(我说的是手动维护Kafka的offset实现一致性消费的问题)
h)必需要手动维护offset吗?(我转到了Flink去解决这个问题)
i)遇到Flink不太能解决的问题.(我没多说,其实应该说大数据量使用redis布隆过滤器实现UV去重的)
j)实时指标出来后的应用场景.(我提到了ES预警)
k)预警是怎么做到的.预警的条件.(公司内部的预警和用户行为的预警)
2.数仓方面:
a)当初建模的时候应用场景是什么样的.
b)建模的流程(我是从数据源开始讲)
c)都有哪些数据同步到数仓里面(我说大概20多张表)
d)对这些表有过什么分类吗.(我说的同步策略)
e)哪些表是相应的同步策略.
f)跨天支付数据是怎么处理的.
g)用户表为什么一定是拉链表.
h)数仓的分层.
i)如何出来用户的一天的行为轨迹.(这个问题出现在描述dws层)
j)dws和dwt的宽表都有哪些,并且都是什么!!!(详细都说出来!!!)
k)出口对应的指标.(我太菜了.没说出来几个)
l)你们是怎么保证数据质量的.(居然没想起来监控框架.我太菜了.)
layerscapem)数据质量监控的角度,(我只记得数据量)
n)有制定一些量化的'含量指标'(应该是这个词)也就是说怎么衡量这个表好用不好用.
o)有没有一张表实现所有的分析.
3.SQL题(很简单)
a)外卖的配送ID
b)外卖员的ID
mysql面试题34道经典c)订单配送的City
d)时间的CT
e)一整年中,每个月每个城市订单量Top10.
4.其他
a)3.1.为什么考虑换一份工作.
b)3.2.离线和实时更偏向哪些(我说的实时),为什么?
c)3.3.工作后做的最有成就感的一件事是什么.
5.flink,ck机制,内存管理,出现反压怎么处理的?
6.kylin如何直接构建cube?
三、华为
1.spark内存管理
2.hive分区表中,单值分区和范围分区的区别
3.你们公司执行spark任务时,资源怎么设置的(需要直接说出来)
4.介绍一下kafka水位线(其实就是leo和Hw)
c语言从入门5.说几个指标,分别从什么数据层拿取了数据,需要直接说出来
6.数仓采用了什么模型?为什么?
7.hive分区表,单值分区和范围分区的区别
8.spark任务切分,怎么判断有没有执行shuffle
9.你们公司拉链表都有什么字段,拉链表出错怎么办
10.列举几张表的同步策略
11.flink Sql 了解吗
四、吉贝克
1.你做了哪些项目
2.你主要负责哪个项目
3.你怎么建模的,你们的数仓架构(你们用到了哪些框架),你们的数据量,你们的集规模,用的是Apache还是CDH,怎么维护集的(集监控)
4.你们用的hql,还是sparksql?
5.hive中主要用到了哪些函数
6.你们数仓遇到的问题
7.你们用的脚本还是jar
8.你们azkaban的版本
9.你们遇到过hive与mysql间的字符集乱码问题吗?怎么解决的
10.你们hive数据倾斜遇到过吗?怎么解决的
11.你在离线数仓中做了什么
五、美团到店
1.自我介绍
2.具体介绍一下具体做了哪些工作.
3.为什么要做sparkstreaming到Flink的转化.
4.Sparkstreaming和Flink消耗资源具体数据对比
5.在什么场景下需要这么高的实时性.
6.遇到SparkStreaming不太能解决的问题
7.建模的流程
8.数仓的分层.
9.宽表都有哪些,?
10.三范式知道吗,说一下?
11.项目中遇到什么难解决的问题?
12.有小文件和数据倾斜,这个怎么处理?
13.空值key加随机数是一种数据倾斜解决方案,如果有单个key是热点值呢?又如果有多个key是热点值呢?用参数和代码分别怎么解决?
14.调度工具用到哪些;
15.数据可视化怎么做;
16.Flink怎么优化?举实际例子,数据对比
17.OLAP引擎用过哪些?
18.用过什么工具进行数据迁移,导入导出。
19.行存和和列存的区别?
20.OLTP和OLAP的区别
21.Flink的JobManger?
22.Flink的TaskManager
23.为什么选择ElasticSearc,ClickHouse?
24.Spark Streaming和Flink的区别,包括计算实时指标的一个逻辑是怎样的?
25.假设有些数据,延时了10分钟20分钟才过来,想这种数据在Spark Streaming和Flink分别做怎么处理的?
26.算从0点累计到当前时间的DAU(日活),像这种数据,用Flink如何实现?
27.布隆过滤器有什么缺点,哪些场景用不了?
28.你们离线数仓是跑在什么引擎上的?
29.MapReduce从提交到最后执行大概是一个什么过程?
a)Shuffle和Reduce有什么区别?
30.一个任务,平常10分钟20分钟就完成了,今天1,2个小时都没完成,我们需要怎么解决?
31.算过去30天有哪些用户是连续7天登录我们APP的,如何写SQL,思路?
32.开窗函数有哪些?
33.开窗函数什么情况下会有order by,什么情况下order by是必须要写的?
34.数据报表存储这块用过哪些产品,用过哪些存储引擎?--没答上来,后来提醒的我说的HBase
35.OLAP引擎用过哪些?
sql语句constraint36.如何设计数据报表的存储,MySQL已经不能用了,查询效率太低,你们这时候如何存储?
37.拉链表有什么缺点?拉链表有哪些字段必须要有的?
38.数据和业务是怎么协作的?比如说数据对业务做一些反馈和支持?
六、润和
随机数表什么意思
1.负责几个topic

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。