HDFS核心理论学习记录
创始人
2024-05-30 15:42:18
0

标题HDFS理论学习第一天

一、HDFS优缺点

1、优点

  • 高容错性:数据会保存多个副本
  • 适合处理大数据:能够处理GB,TB甚至PB级别的数据
  • 能够处理百万规模的数据数据
  • 廉价不吃配置

2、缺点

  • 不适合低延时数据访问,文件存储是放在磁盘中读取会有额外io时间。
  • 无法高效对大量小文件进行存储
  • 大量小文件会增加namenode的元数据信息(块信息和文件目录)会增加寻址时间。
  • 不支持并发写入只能单线程写。且仅支持在文件末尾追加数据不支持修改。

二、HDFS组织架构

1、 namenode

  • 管理hdfs的命名空间
  • 配置副本策略
  • 管理数据块映射信息
  • 处理客户端读写请求
    2、datanode
  • 存储实际的数据块
  • 执行数据块的读写操作
    3、client
  • 文件切分:在上传文件时由客户端将文件切分后再上传
  • 与namenode交互获取文件信息
  • 与datanode交互读写数据
  • 管理namenode比如格式化
  • 对hdfs的增删操作
    4、2NN secondaryNode
  • 2nn并非为namenode的热备份,当namennode挂了它并不能替换namenode,
  • 辅助namenode工作比如定期合并fsimage,edits,推送给namenode
  • 在紧急情况下可回复namenode

HDFS写数据流程

1. 剖析文件写入
在这里插入图片描述
(1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。
(2)NameNode返回是否可以上传。
(3)客户端请求第一个 Block上传到哪几个DataNode服务器上。
(4)NameNode返回3个DataNode节点和输出流对象,分别为dn1、dn2、dn3。
(5)客户端通过FSDataOutputStream模块请求dn1上传数据,dn1收到请求会继续调用dn2,然后dn2调用dn3,将这个通信管道建立完成。
(6)dn1、dn2、dn3逐级应答客户端,。
(7)客户端开始往dn1上传第一个Block(先从磁盘读取数据放到一个本地内存缓存),以Packet为单位,dn1收到一个Packet就会传给dn2,dn2传给dn3;dn1每传一个packet会放入一个应答队列等待应答,通过ack数据校验包返回数据是否传输完成。
(8)当一个Block传输完成之后,客户端再次请求NameNode上传第二个Block的服务器。(重复执行3-7步)。
成功后 关闭输出流,并向namenode返回文件已上传完毕,等待namenode
确认。因为NameNode已经知道文件由哪些块组成,因此仅需等待最小复制块即可成功返回即可。至此整个流程就完成了。

网络拓扑-节点距离计算

在HDFS写数据的过程中,NameNode会选择距离待上传数据最近距离的DataNode接收数据。那么这个最近距离怎么计算呢?
节点距离:两个节点到达最近的共同祖先的距离总和。

机架感知(副本存储节点选择)

众所周知,数据块会在hdfs上有多个副本默认三分。那么副本是按照什么策略存储呢?
副本1会存储在client所处节点上,如果client不在对应datanode节点则会随机存储在datanode集群。
副本2会存储在另一个机架随机的一个节点,副本3会存储在和副本3相同机架另个节点。

HDFS读数据流程

1.客户端通过distribute file system 向 NamenNode 发送 请求下载文件A 德的请求。
2.namenode接收到后 判断是否在存在该文件,且该用户是否有权限如果有则返回对应文件的元数据信息
3 . 客户端接收到元数据信息后,创建input输入流 去找最近的节点D1去下载block1块数据,如果D1负载过高,那么下载block2块会打到另个d2节点。
4.传输block1数据,以packet为单位,每隔packet占64字节。先写入缓存,然后再写入目标文件

NN和2NN工作机制

NameNode中的元数据信息是存储在哪里的呢?
首先想到的是数据会存储在内存中,但是如果断电那么数据就会丢失,整个集群就会挂掉。
如果存放在磁盘中读取效率又很低,因为有io操作。
为了解决这个问题 hdfs 在磁盘中产生了备份文件fsimage。和历史操作记录文件Edits
fsimage是存储大部分的元数据序列化信息镜像。
edits文件保存元数据最近的操作记录。元数据修改操作信息会首先同步到edits文件中,再同步到,内存中。这么做的原因是如果修改元数据期间断电,数据不会丢失。
所以即便断电 通过fsimage和edits两个文件合并最终也可以得到元数据信息。
如果修改记录过多放到edits文件中会导致文件数据过大,效率降低,开机恢复时间过长出于这个问题,所以需要定期更新合并fsimage和edit文件。如果这个操作由namenode完成,那么namennode工作效率就会降低。
这也是为什么namenode 和 SecondaryNamenode不在一台服务器节点的原因。

总结如下:

一、

  1. 第一次namenode格式化后会产生fsimage和edits文件。如果不是第一次启动则会直接加载fsimage和edits文件到内存
  2. 客户端发送增删改请求
  3. namenode记录操作日志到edits文件
  4. namenode执行增删改更新操作加载结果到内存

二、
在此期间

  1. 2nn会定期向1nn是否需要checkpoint 也就是合并镜像文件。
  2. 如果edit文件过大则会触发合并服务。超过100w大概。
  3. 期间如果有增删改元数据操作 会被滚动在新的edit文件中。旧的edit文件和fsimage会发送到2nn节点,2nn节点负责fsimage文件和edits文件的合并,产生新的fsimage.chkpoint文件发送给1nn。
  4. 1nn接收到后恢复改掉原来的fsimage文件 并改名为fsimage,那么最后fsiamge和新的正在滚动的edits文件 相加就是最新的元数据了。

checkpoint 服务时间再 hdfs-default.xml 中可以配置 默认是1分钟检查一次

HDFS的五大机制

  1. 切片机制:
    hdfs中的实际数据都是以快的形式存储在datanode节点当中,块大小可配置一般根据磁盘io速度配置
  2. 汇报机制
    datanode节点开机启动后会想namenode节点汇报注册。namenode与datanode会有一个心跳机制一般为3妙,块信息也会定时向namenode汇报是否可用默认为6小时。
  3. 心跳检测机制
    datanode会每隔三秒汇报自己的是否可用信息,如果namenode没有收到该信息,datanode节点会继续汇报10次,3S*10=30秒。如果十分钟后还是没有恢复,则datanode节点会被视为宕机状态,当前机器上的数据namenode会找新的datanode节点做备份。‘
  4. 负载均衡
    让集群中所有的节点(服务器)的利用率和副本数尽量都保持一致或在同一个水平线上
    5.副本机制
    默认备份三个副本,如果副本多了会删,少于3会新增。少于三且无法新增则会进入安全模式只能读不能写。

相关内容

热门资讯

控制高中作文(精简3篇) 控制高中作文 篇一控制高中作文是一种有效的学习工具高中阶段对学生的学习要求越来越高,学生们需要掌握更...
感动的作文(通用6篇) 感动的作文 篇一我曾经读过一篇非常感人的故事,讲述了一个关于爱和勇气的故事。这个故事发生在一个小村庄...
星星点点回家高中作文(优秀3... 星星点点回家高中作文 篇一星星点点回家每当我走在回家的路上,夜空中的星星点点就像是在为我点亮回家的路...
高一数学公式集合【优质3篇】 高一数学公式集合 篇一在高一数学学习中,我们需要掌握许多重要的数学公式,它们是我们解题的基础。以下是...
最温暖的地方高二作文(经典5... 最温暖的地方高二作文 篇一:家庭的温暖家庭是最温暖的地方,它是我们人生中最重要的支撑和依靠。无论我们...
800字随笔高中作文(通用6... 800字随笔高中作文 篇一:《成长中的迷茫与探索》在我们的成长过程中,难免会遇到各种迷茫和困惑。我们...
幸福从何而来议论文【最新6篇... 幸福从何而来议论文 篇一幸福是人们追求的终极目标之一,但是对于幸福的定义却各不相同。有人认为幸福源自...
慢慢长大作文六百字【优秀3篇... 慢慢长大作文六百字 篇一慢慢长大,是每个人必经的过程。当我们还是孩子的时候,总是渴望快点长大,以便能...
什么味道让人向往 - 高中(... 什么味道让人向往 - 高中 篇一高中生活,是一个人成长的黄金时期。在这个阶段,我们不仅需要学习知识,...
走向高一作文800字(优选6... 走向高一作文800字 篇一初升高中,迎来了新的挑战和机遇。对于即将步入高一的我来说,这是一个新的起点...
社会主义核心价值观征文【精简... 社会主义核心价值观征文 篇一社会主义核心价值观是指在中国共产党的领导下,以马克思主义、毛泽东思想、邓...
泪高一作文(推荐6篇) 泪高一作文 篇一我的初中生活泪高一,初中三年的生活即将结束,回首走过的路,我心中充满了感慨和不舍。在...
原来如此高一作文(优秀3篇) 原来如此高一作文 篇一:如何做一个高效学习者随着高中的到来,我们迎来了新的学习阶段。在这个阶段,我们...
擦干你的泪水高一作文【优秀3... 擦干你的泪水高一作文 篇一擦干你的泪水泪水,是我们内心最真实的情感的流露。有时,它是因为伤心,因为失...
高二语文作文:我的幸福我做主... 高二语文作文:我的幸福我做主 篇一我的幸福我做主现代社会,人们对于幸福的追求变得越来越强烈。但是,什...
我的自述作文高一800字【精... 我的自述作文高一800字 篇一初入高中,我怀着憧憬和紧张的心情踏入了新的学校。在这个全新的环境中,我...
西游记优美的四字词语【精彩5... 西游记优美的四字词语 篇一西游记是中国古典文学的经典之作,无论是故事情节还是人物形象都给人留下了深刻...
高中作文素材积累(通用5篇) 高中作文素材积累 篇一:人与自然的关系人类与自然的关系是一个永恒的话题,它涉及到人类的生存与发展,也...
阅读,伴我一路成长高一作文(... 阅读,伴我一路成长高一作文 篇一阅读是我的伴侣,伴我一路成长。从小学到初中,我一直喜欢看各种各样的书...
精神应与物质并存高二议论文(... 精神应与物质并存高二议论文 篇一在当今社会,人们常常陷入对精神和物质的对立中。有人认为精神追求比物质...