1000个大数据开发学习知识点最全汇总
1.Zookeeper用于集主备切换。
2.YARN让集具备更好的扩展性。
3.Spark没有存储能力。
4.Spark的Master负责集的资源管理,Slave用于执行计算任务。
5.Hadoop从2.x开始,把存储和计算分离开来,形成两个相对独立的子集:HDFS和YARN,MapReduce依附于YARN来运行。
6.YARN可以为符合YARN编程接口需求的集提供调度服务。
7.YARN:
ResourceManager一主多备
NodeManager一般与DataNode部署在一起。
8.单机硬件配置会严重影响集的性能。
9.初始化集机器环境:创建账号、安装JDK、设置时间同步。
10.Zookeeper的部署最简单,其节点数必为奇数。
11.ZK两个端口,前者是链接Leader后者是用于竞选。
12.部署Spark StandLone集:
1.SSH无密码登录
2.复制解压Spark
3.编写配置文件分发到所有节点
13.Hadoop2.x以上支持双机热备。
14.Standlone模式只支持简单的固定资源分配策略。scala不是内部或外部命令
15.YARN统一为集上的所有计算负载分配资源,可以避免资源分配的混乱无序。
16.Spark程序由Master还是YARN来调度执行,是由Spark程序在提交时决定的。
17.YARN两种调度模式:
Yarn-cluster模式,用于生产
Yarn-client模式,用于交互
18.Spark计算都是围绕RDD进行的。
19.Spark在运行时,一般RDD操作会为每个RDD分区运行一个job。
20.Job最简单的理解,它对应一个java线程。
21.Spark所有基于文件的生产RDD方法,都支持目录、压缩文件和通配符。
22.RDD是Spark的核心抽象,所有计算都围绕RDD进行。
23.RDD操作分为两类:
Transformation转换
Action动作
24.所有Transformation都是Lazy模式,先记录计算方式,Driver返回结果时开始计算。
25.RDD的Transformation实际计算只在Action返回结果时才进行,或者持久化。
26.Spark严重依赖传递函数类型的参数。
27.从Driver分发各个节点过程:
Job执行:
1.在Driver节点上序列化代码
2.传送至各个计算节点
3.在计算节点上反序列化
4.执行
28.Scala function支持序列化。
29.Spark的核心是RDD,而RDD是分布式计算的。
30.Spark会将Job运行所有依赖的变量、方法、(闭包)全部打包在一起序列化。
31.RDD操作的禁忌,不能嵌套调用。
32.Action操作输出不再是RDD,返回值Driver程序。
33.Spark集上的资源主要是CPU core数量和物理内存。
34.在程序运行时,每个core对应一个线程。
35.Standlone模式下由Spark集中的master节点进行资源调度。
36.Spark调度两类:
1.spark程序见的调度(主)
2.spark程序内部的调度
37.用户编写的spark程序称为Driver程序。
38.每个驱动程序都有一个SparkContext对象,担负着与集沟通的职责。
39.集管理器负责集的资源调度。
40.执行器,每个spark程序在每个节点上启动的一个进程。
41.一次RDD Action对应一次job。
42.Stage,job在执行过程中被分为多个阶段。
43.Task,在执行器上执行的最小单位。
44.Spark程序间的调度:
静态分配(主)
动态分配
45.所有集管理器都支持静态资源分配。
46.当spark为多用户服务时,需要配置spark程序内部的调度。
47.不同线程提交的job可以并行执行。
48.默认spark的调度器以FIFO方式运行Job。
49.公平调度还支持对多个Job进行分组,分组称为调度池。
50.Spark性能优势,很大一部分原因是内存和缓存。
51.RDD持久化可以多次利用,性能提高10倍以上。
52.Spark提供两类共享变量——广播变量和计数器。
53.广播变量是一个只读变量,在所有节点上都是一份缓存。
54.计数器只能增加,用于技术和求和。
55.容错机制是分布式系统的一个重要能力。
56.DAG:有向无环图的计算任务集合。
57.分布式系统经常需要做检查点。
58.RDD也是一个DAG,每一个RDD都会记住创建该数据需要哪些操作——血统。
59.RDD依赖:
窄依赖——父分区对应一个子分区
宽依赖——父分区对应多个子分区
60.Spark提供了预写日志(journal),先将数据写入支持容错的文件系统中。
61.Spark master容错:
Standalone——Zookeeper
单点——本地重启
62.Slave节点失效:
1.Work异常停止
2.执行器异常停止
3.Driver异常退出
63.监控管理:
1.Web界面
2.Metrics
3.外部系统
64.Web界面:
1.调度器stage,Task列表
2.RDD大小和内存文件统计情况
3.环境信息
4.正在执行的执行器信息
65.Standlone模式的集管理器有自己的web界面。
66.Web界面表格的头部都支持点击排序。
67.Spark程序一般都是由脚本bin/spark-submit来提交的。
68.RDD特点:
1.RDD是只读的
2.RDD可指定缓存在内存中
3.RDD可以通过重新计算得到
69.RDD核心属性:
1.一个分区列表
2.一个依赖列表
3.一个名为compute的计算函数
4.分区器
5.计算各分区是优先的位置列表
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论