Hadoop3.x纠删码(Erasure Coding)
创始人
2024-06-03 15:16:21
0

一、什么是纠删码(Erasure Coding)

        HDFS默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。Hadoop3.x引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间

        

        Hadoop 3中的HDFS(Hadoop Distributed File System)使用了纠删码来提高数据的可靠性和容错性。具体来说,Hadoop 3中引入了一种新的纠删码实现,称为Erasure Coding(EC)。

        Erasure Coding是一种利用冗余数据来纠正数据丢失或损坏的编码方式。与传统的副本机制不同,Erasure Coding将原始数据分割成多个数据块,并为这些数据块计算校验码。然后,将原始数据块和校验码块分别存储在不同的节点上,以提高数据的可靠性和容错性。

        在Hadoop 3中,Erasure Coding可以在HDFS中启用,以替代传统的副本机制。相比于传统的副本机制,Erasure Coding可以显著减少数据的存储成本,并提高数据的读取性能。此外,Erasure Coding还可以在数据传输过程中检测和纠正数据传输中的错误,从而提高数据传输的可靠性。

        总之,Erasure Coding是Hadoop 3中一种重要的数据纠删码实现,它可以提高HDFS的可靠性和容错性,并减少数据的存储成本。

 

二、使用纠删码

使用方法:

[mingyu@hadoop102 hadoop-3.1.3]$ hdfs ec
Usage: bin/hdfs ec [COMMAND][-listPolicies][-addPolicies -policyFile ][-getPolicy -path ][-removePolicy -policy ][-setPolicy -path  [-policy ] [-replicate]][-unsetPolicy -path ][-listCodecs][-enablePolicy -policy ][-disablePolicy -policy ][-help ]Generic options supported are:
-conf         specify an application configuration file
-D                define a value for a given property
-fs  specify default filesystem URL to use, overrides 'fs.defaultFS' property from configurations.
-jt   specify a ResourceManager
-files                 specify a comma-separated list of files to be copied to the map reduce cluster
-libjars                specify a comma-separated list of jar files to be included in the classpath
-archives           specify a comma-separated list of archives to be unarchived on the compute machines

hadoop3中一共给出了5中纠删码策略

[mingyu@hadoop102 hadoop-3.1.3]$ hdfs ec -listPolicies
Erasure Coding Policies:
ErasureCodingPolicy=[Name=RS-10-4-1024k, Schema=[ECSchema=[Codec=rs, numDataUnits=10, numParityUnits=4]], CellSize=1048576, Id=5], State=DISABLED
ErasureCodingPolicy=[Name=RS-3-2-1024k, Schema=[ECSchema=[Codec=rs, numDataUnits=3, numParityUnits=2]], CellSize=1048576, Id=2], State=ENABLED
ErasureCodingPolicy=[Name=RS-6-3-1024k, Schema=[ECSchema=[Codec=rs, numDataUnits=6, numParityUnits=3]], CellSize=1048576, Id=1], State=ENABLED
ErasureCodingPolicy=[Name=RS-LEGACY-6-3-1024k, Schema=[ECSchema=[Codec=rs-legacy, numDataUnits=6, numParityUnits=3]], CellSize=1048576, Id=3], State=DISABLED
ErasureCodingPolicy=[Name=XOR-2-1-1024k, Schema=[ECSchema=[Codec=xor, numDataUnits=2, numParityUnits=1]], CellSize=1048576, Id=4], State=DISABLED

以 RS-3-2-1024k 为例,

        使用RS编码,每3个数据单元,生成2个校验单元,共5个单元,也就是说:这5个单元中,只要有任意的3个单元存在(不管是数据单元还是校验单元,只要总数=3),就可以得到原始数据。每个单元的大小是1024k=1024*1024=1048576。

1、启用纠删码策略

 hdfs ec -enablePolicy  -policy RS-3-2-1024k

2、设置纠删码策略生效路径

hdfs ec -setPolicy -path /input -policy RS-3-2-1024k

3、上传文件查看效果

注:上传的文件需要大于2M才能看出效果。(低于2M,只有一个数据单元和两个校验单元)

 

 

相关内容

热门资讯

主持的谢幕词 有关主持的谢幕词(通用10篇)  导语:谢幕是指演出结束后观众鼓掌时,演员站在台上向观众弯腰敬礼答谢...
一年级新队员入队仪式主持词 一年级新队员入队仪式主持词  主持词是各种演出活动和集会中主持人串联节目的串联词。在人们越来越多的参...
《老表,你好Hea》经典台词 《老表,你好Hea》经典台词  1.我是林在野,我的人生只有一个目标,就是抗议。——林在野  2.我...
艺术节闭幕式闭幕词 艺术节闭幕式闭幕词(通用6篇)  契合现场环境的闭幕词能给集会带来双倍的效果。在如今这个中国,闭幕词...
元旦茶话会主持词 元旦茶话会主持词6篇  一年的新年的钟声即将敲响,时光的车轮又留下了一道深深的印痕。有很多学校班级或...
入队仪式主持词 入队仪式主持词  一、什么是主持词  由主持人于节目进行过程中串联节目的串联词。如今的各种演出活动和...
幼儿园元旦文艺汇演节目串词 幼儿园元旦文艺汇演节目串词幼儿园2011年元旦文艺汇演节目串词a:尊敬的各位领导、各位家长b:亲爱的...
婚礼宴会致辞 婚礼宴会致辞(集锦15篇)  在平日的学习、工作和生活里,要用到致辞的地方还是很多的,致辞具有有张有...
座谈会主持词 座谈会主持词  主持词的内容  主持词:一般由开场白、中间部分与结束语组成。  开场白:演出或其他开...
论坛原创作品朗诵晚会主持词 论坛原创作品朗诵晚会主持词电力网”溪水论坛”原创作品朗诵晚会晚会监督:一秀.北京诗鸽晚会男主持:骑士...
郭德纲相声梦中婚台词 郭德纲相声梦中婚台词  导语:相声用笑话、滑稽地问答、说唱等引起观众发笑的一种曲艺形式。用笑话、滑稽...
父亲生日祝寿词 父亲生日祝寿词父亲生日祝寿词各位亲友、各位来宾:晚上好!首先我代表我们*氏家族向各位的光临表示热烈的...
歌咏比赛主持词 歌咏比赛主持词(精选10篇)  根据活动对象的不同,需要设置不同的主持词。在当今中国社会,主持成为很...
全体教师会主持词 全体教师会主持词  主持词的写作需要将主题贯穿于所有节目之中。在当今社会生活中,很多场合都需要主持人...
清明诗会主持词 清明诗会主持词  主持词是主持人在台上表演的灵魂之所在。时代不断在进步,主持人参与的事情越来越多,主...
中秋晚会董事长精彩致辞 中秋晚会董事长精彩致辞(精选5篇)  在生活、工作和学习中,大家都用到过致辞吧,致辞具有能伸能缩,可...
证婚人婚礼致辞 证婚人婚礼致辞(15篇)  在现实生活或工作学习中,许多人都有过写致辞的经历,对致辞都不陌生吧,在各...
专卖店开业主持词 专卖店开业主持词  主持词要注意活动对象,针对活动对象写相应的主持词。现今社会在不断向前发展,主持词...
参军谢宴主持词 参军谢宴主持词  参军谢宴主持词  尊敬的各位来宾,女士们,先生们:    大家中午好!    在这...
《蜡笔小新》搞笑台词日文版解... 《蜡笔小新》搞笑台词日文版解读  一个生前给人带来欢笑的人,当他离去时,我想活着的人应该用笑容而不是...