HDFS核心理论学习记录
创始人
2024-05-30 15:42:18
0

标题HDFS理论学习第一天

一、HDFS优缺点

1、优点

  • 高容错性:数据会保存多个副本
  • 适合处理大数据:能够处理GB,TB甚至PB级别的数据
  • 能够处理百万规模的数据数据
  • 廉价不吃配置

2、缺点

  • 不适合低延时数据访问,文件存储是放在磁盘中读取会有额外io时间。
  • 无法高效对大量小文件进行存储
  • 大量小文件会增加namenode的元数据信息(块信息和文件目录)会增加寻址时间。
  • 不支持并发写入只能单线程写。且仅支持在文件末尾追加数据不支持修改。

二、HDFS组织架构

1、 namenode

  • 管理hdfs的命名空间
  • 配置副本策略
  • 管理数据块映射信息
  • 处理客户端读写请求
    2、datanode
  • 存储实际的数据块
  • 执行数据块的读写操作
    3、client
  • 文件切分:在上传文件时由客户端将文件切分后再上传
  • 与namenode交互获取文件信息
  • 与datanode交互读写数据
  • 管理namenode比如格式化
  • 对hdfs的增删操作
    4、2NN secondaryNode
  • 2nn并非为namenode的热备份,当namennode挂了它并不能替换namenode,
  • 辅助namenode工作比如定期合并fsimage,edits,推送给namenode
  • 在紧急情况下可回复namenode

HDFS写数据流程

1. 剖析文件写入
在这里插入图片描述
(1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。
(2)NameNode返回是否可以上传。
(3)客户端请求第一个 Block上传到哪几个DataNode服务器上。
(4)NameNode返回3个DataNode节点和输出流对象,分别为dn1、dn2、dn3。
(5)客户端通过FSDataOutputStream模块请求dn1上传数据,dn1收到请求会继续调用dn2,然后dn2调用dn3,将这个通信管道建立完成。
(6)dn1、dn2、dn3逐级应答客户端,。
(7)客户端开始往dn1上传第一个Block(先从磁盘读取数据放到一个本地内存缓存),以Packet为单位,dn1收到一个Packet就会传给dn2,dn2传给dn3;dn1每传一个packet会放入一个应答队列等待应答,通过ack数据校验包返回数据是否传输完成。
(8)当一个Block传输完成之后,客户端再次请求NameNode上传第二个Block的服务器。(重复执行3-7步)。
成功后 关闭输出流,并向namenode返回文件已上传完毕,等待namenode
确认。因为NameNode已经知道文件由哪些块组成,因此仅需等待最小复制块即可成功返回即可。至此整个流程就完成了。

网络拓扑-节点距离计算

在HDFS写数据的过程中,NameNode会选择距离待上传数据最近距离的DataNode接收数据。那么这个最近距离怎么计算呢?
节点距离:两个节点到达最近的共同祖先的距离总和。

机架感知(副本存储节点选择)

众所周知,数据块会在hdfs上有多个副本默认三分。那么副本是按照什么策略存储呢?
副本1会存储在client所处节点上,如果client不在对应datanode节点则会随机存储在datanode集群。
副本2会存储在另一个机架随机的一个节点,副本3会存储在和副本3相同机架另个节点。

HDFS读数据流程

1.客户端通过distribute file system 向 NamenNode 发送 请求下载文件A 德的请求。
2.namenode接收到后 判断是否在存在该文件,且该用户是否有权限如果有则返回对应文件的元数据信息
3 . 客户端接收到元数据信息后,创建input输入流 去找最近的节点D1去下载block1块数据,如果D1负载过高,那么下载block2块会打到另个d2节点。
4.传输block1数据,以packet为单位,每隔packet占64字节。先写入缓存,然后再写入目标文件

NN和2NN工作机制

NameNode中的元数据信息是存储在哪里的呢?
首先想到的是数据会存储在内存中,但是如果断电那么数据就会丢失,整个集群就会挂掉。
如果存放在磁盘中读取效率又很低,因为有io操作。
为了解决这个问题 hdfs 在磁盘中产生了备份文件fsimage。和历史操作记录文件Edits
fsimage是存储大部分的元数据序列化信息镜像。
edits文件保存元数据最近的操作记录。元数据修改操作信息会首先同步到edits文件中,再同步到,内存中。这么做的原因是如果修改元数据期间断电,数据不会丢失。
所以即便断电 通过fsimage和edits两个文件合并最终也可以得到元数据信息。
如果修改记录过多放到edits文件中会导致文件数据过大,效率降低,开机恢复时间过长出于这个问题,所以需要定期更新合并fsimage和edit文件。如果这个操作由namenode完成,那么namennode工作效率就会降低。
这也是为什么namenode 和 SecondaryNamenode不在一台服务器节点的原因。

总结如下:

一、

  1. 第一次namenode格式化后会产生fsimage和edits文件。如果不是第一次启动则会直接加载fsimage和edits文件到内存
  2. 客户端发送增删改请求
  3. namenode记录操作日志到edits文件
  4. namenode执行增删改更新操作加载结果到内存

二、
在此期间

  1. 2nn会定期向1nn是否需要checkpoint 也就是合并镜像文件。
  2. 如果edit文件过大则会触发合并服务。超过100w大概。
  3. 期间如果有增删改元数据操作 会被滚动在新的edit文件中。旧的edit文件和fsimage会发送到2nn节点,2nn节点负责fsimage文件和edits文件的合并,产生新的fsimage.chkpoint文件发送给1nn。
  4. 1nn接收到后恢复改掉原来的fsimage文件 并改名为fsimage,那么最后fsiamge和新的正在滚动的edits文件 相加就是最新的元数据了。

checkpoint 服务时间再 hdfs-default.xml 中可以配置 默认是1分钟检查一次

HDFS的五大机制

  1. 切片机制:
    hdfs中的实际数据都是以快的形式存储在datanode节点当中,块大小可配置一般根据磁盘io速度配置
  2. 汇报机制
    datanode节点开机启动后会想namenode节点汇报注册。namenode与datanode会有一个心跳机制一般为3妙,块信息也会定时向namenode汇报是否可用默认为6小时。
  3. 心跳检测机制
    datanode会每隔三秒汇报自己的是否可用信息,如果namenode没有收到该信息,datanode节点会继续汇报10次,3S*10=30秒。如果十分钟后还是没有恢复,则datanode节点会被视为宕机状态,当前机器上的数据namenode会找新的datanode节点做备份。‘
  4. 负载均衡
    让集群中所有的节点(服务器)的利用率和副本数尽量都保持一致或在同一个水平线上
    5.副本机制
    默认备份三个副本,如果副本多了会删,少于3会新增。少于三且无法新增则会进入安全模式只能读不能写。

相关内容

热门资讯

常用商务英语口语   商务英语是以适应职场生活的语言要求为目的,内容涉及到商务活动的方方面面。下面是小编收集的常用商务...
六年级上册英语第一单元练习题   一、根据要求写单词。  1.dry(反义词)__________________  2.writ...
复活节英文怎么说 复活节英文怎么说?复活节的英语翻译是什么?复活节:Easter;"Easter,anniversar...
2008年北京奥运会主题曲 2008年北京奥运会(第29届夏季奥林匹克运动会),2008年8月8日到2008年8月24日在中华人...
英语道歉信 英语道歉信15篇  在日常生活中,道歉信的使用频率越来越高,通过道歉信,我们可以更好地解释事情发生的...
六年级英语专题训练(连词成句... 六年级英语专题训练(连词成句30题)  1. have,playhouse,many,I,toy,i...
上班迟到情况说明英语   每个人都或多或少的迟到过那么几次,因为各种原因,可能生病,可能因为交通堵车,可能是因为天气冷,有...
小学英语教学论文 小学英语教学论文范文  引导语:英语教育一直都是每个家长所器重的,那么有关小学英语教学论文要怎么写呢...
英语口语学习必看的方法技巧 英语口语学习必看的方法技巧如何才能说流利的英语? 说外语时,我们主要应做到四件事:理解、回答、提问、...
四级英语作文选:Birth ... 四级英语作文范文选:Birth controlSince the Chinese Governmen...
金融专业英语面试自我介绍 金融专业英语面试自我介绍3篇  金融专业的学生面试时,面试官要求用英语做自我介绍该怎么说。下面是小编...
我的李老师走了四年级英语日记... 我的李老师走了四年级英语日记带翻译  我上了五个学期的小学却换了六任老师,李老师是带我们班最长的语文...
小学三年级英语日记带翻译捡玉... 小学三年级英语日记带翻译捡玉米  今天,我和妈妈去外婆家,外婆家有刚剥的`玉米棒上带有玉米籽,好大的...
七年级英语优秀教学设计 七年级英语优秀教学设计  作为一位兢兢业业的人民教师,常常要写一份优秀的教学设计,教学设计是把教学原...
我的英语老师作文 我的英语老师作文(通用21篇)  在日常生活或是工作学习中,大家都有写作文的经历,对作文很是熟悉吧,...
英语老师教学经验总结 英语老师教学经验总结(通用19篇)  总结是指社会团体、企业单位和个人对某一阶段的学习、工作或其完成...
初一英语暑假作业答案 初一英语暑假作业答案  英语练习一(基础训练)第一题1.D2.H3.E4.F5.I6.A7.J8.C...
大学生的英语演讲稿 大学生的英语演讲稿范文(精选10篇)  使用正确的写作思路书写演讲稿会更加事半功倍。在现实社会中,越...
VOA美国之音英语学习网址 VOA美国之音英语学习推荐网址 美国之音网站已经成为语言学习最重要的资源站点,在互联网上还有若干网站...
商务英语期末试卷 Part I Term Translation (20%)Section A: Translate ...