首页 IT编程正文内容

hadoop原理

IT编程

2025-01-22 23:41:24

分布式文件节点任务复制

Hadoop基本原理

1、Hadoop是什么

Hadoop是一个开源的分布式计算平台。

HDFS 和MapReduce是Hadoop的两大核心，整个Hadoop的体系结构主要是通过 HDFS来实现对分布式存储的底层支持的，并通过MapReduce来实现对分布式并行任务处理的程序支持。

2、为什么要用Hadoop？

1）高效地存储和管理数据

2）处理问题时，采用分布式存储方式(HDFS：hadoop distribution file system)，提高了读写速度，并扩大了存储容量.

3）还采用存储冗余数据的方式保证数据的安全性。

3、Hadoop工作原理？

HDFS：采用主从结构模型。

一个HDFS集有一个NameNode和若干个DataNode组成：其中NameNode为主，管理文件系统命名和文件的访问操作，DataNode为从，管理存储的数据。

MapReduce：一种并行编程模式，使用者可以基于该模式情动写出分布式并行程序。

由一个单独运行的主节点上的JobTracker和运行在每个集从节点上的TaskTracker共同组成。主节点负责调度构成一个作业的所有任务，这些任务分布在不同的从节点上，由主节点监控任务的执行情况，并重新执行之前失败的任务；从节点负责执行主节点指派的任务。

4、Hadoop的数据管理？

包含分布式文件系统HDFS, 分布式数据库Hbase和数据仓库工具Hive的数据管理。

HDFS对数据的管理：

1）文件写入：client向NameNode发起文件写入请求---->NameNode根据文件大小和配置，返回DataNode信息---->Client把文件划分为多个Block,根据DataNode地址信息，按顺序写入

hbase工作原理到DataNode;

2）文件读取：client向NameNode发起文件读取请求---->NameNode根据文件存储返回DataNode信息---->Client读取文件信息;

3）文件块（Block)复制：NameNode发现不符合复制要求的Block或者存在DataNode失效---->通知DataNode相互复制Block---->DataNode开始直接相互复制;

PS: HDFS一个文件块有3个备份，一个放在NameNode指定的DataNode上，一个放在与指定DataNode不在同一台机器的DataNode上，还有一个放在与指定DataNode在通以Rack的DataNode上。一方面可以解决通以Rack失败的情况，另一方面可以解决不同Rack之间的数据拷贝提升性能。

版权声明：本站内容均来自互联网，仅供演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198，我们将在24小时内删除。

Hadoop权威指南---中文版

« 上一篇

简述flume的工作原理

下一篇 »

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质
2025-01-07
VBA之正则表达式(1)--基础篇
2025-01-07
代码编辑的辅助方法、装置及电子设备
2025-01-07
SHELL查字符串中包含字符的命令
2025-01-07
String方法中replace和replaceAll的区别详解(源码分析)
2025-01-07
双字节符号正则
2025-01-07

标签列表