Spark 磁盘作用

创始人

2024-05-29 14:30:51

0次

Spark 磁盘作用

磁盘作用
性能价值
- 失败重试
- ReuseExchange

Spark 导航

磁盘作用

临时文件、中间文件、缓存数据，都会存储到 spark.local.dir 中

在 Shuffle Map 时，当内存空间不足，就会溢出临时文件存储到磁盘上
溢出的临时文件一起做归并计算，得到 Shuffle 中间文件存储到磁盘上
缓存分布式数据集 : DISK 的存储模式，会把内存中放不下的数据缓存到磁盘

在这里插入图片描述

性能价值

spark.local.dir 配置到 SDD 或访问高效的存储系统

磁盘复用：

给执行性能带来更好的提升
磁盘复用 : Shuffle Write 产生的中间文件被多次利用

失败重试

一旦某个计算环节出错，就会触发失败重试。失败重试的触发点是距离最新的 Shuffle 的中间文件

当 RDD4 的计算任务失败时，会从 RDD4 向前回溯，回溯到 RDD3 (RDD2 输出的中间文件 ) ，并重新开始计算

在这里插入图片描述

ReuseExchange

ReuseExchange 是 Spark SQL 优化一种 : 相同或相似的物理计划能共享 Shuffle 中间文件

ReuseExchange 机制的触发条件：

多个查询所依赖的分区规则要与 Shuffle 中间数据的分区规则保持一致
多个查询所涉及的字段（Attributes）要保持一致

在这里插入图片描述

统计不同用户的 PV（Page Views，页面浏览量）、UV（Unique Views，网站独立访客），并把两项统计结果合并：

//版本1：分别计算PV、UV，然后合并
// Data schema (userId: String, accessTime: Timestamp, page: String)
val filePath: String = _
val df: DataFrame = spark.read.parquet(filePath)val dfPV: DataFrame = df.groupBy("userId").agg(count("page").alias("value"))
val dfUV: DataFrame = df.groupBy("userId").agg(countDistinct("page").alias("value"))val resultDF: DataFrame = dfPV.Union(dfUV)
// Result样例
| userId | metrics | value |
| user0 | PV | 25 |
| user0 | UV | 12 |

文件扫描/Shuffle 两次：

在这里插入图片描述

以 userId 为分区，调用 repartition ：

//版本2：分别计算PV、UV，然后合并
// Data schema (userId: String, accessTime: Timestamp, page: String)
val filePath: String = _
val df: DataFrame = spark.read.parquet(filePath).repartition($"userId")val dfPV: DataFrame = df.groupBy("userId").agg(count("page").alias("value"))
val dfUV: DataFrame = df.groupBy("userId").agg(countDistinct("page").alias("value"))val resultDF: DataFrame = dfPV.Union(dfUV)
// Result样例
| userId | metrics | value |
| user0 | PV | 25 |
| user0 | UV | 12 |

ReuseExchange ：

数据源只需扫描一遍
Shuffle 也只发生一次

在这里插入图片描述

词库加载错误:未能找到文件“E:\highferrum_mysql\Configuration\Dict_Stopwords.txt”。

上一篇：gitHub远程库

下一篇：【重点】springcloud分布式中gateway+shiro+jwt认证流程（思路）

热门资讯

常用商务英语口语　　商务英语是以适应职场生活的语言要求为目的，内容涉及到商务活动的方方面面。下面是小编收集的常用商务...

六年级上册英语第一单元练习题　　一、根据要求写单词。　　1.dry（反义词）__________________　　2.writ...

复活节英文怎么说复活节英文怎么说?复活节的英语翻译是什么?复活节：Easter;"Easter,anniversar...

2008年北京奥运会主题曲 2008年北京奥运会(第29届夏季奥林匹克运动会)，2008年8月8日到2008年8月24日在中华人...

英语道歉信英语道歉信15篇　　在日常生活中，道歉信的使用频率越来越高，通过道歉信，我们可以更好地解释事情发生的...

六年级英语专题训练(连词成句... 六年级英语专题训练(连词成句30题)　　1. have,playhouse,many,I,toy,i...

上班迟到情况说明英语　　每个人都或多或少的迟到过那么几次，因为各种原因，可能生病，可能因为交通堵车，可能是因为天气冷，有...

小学英语教学论文小学英语教学论文范文　　引导语：英语教育一直都是每个家长所器重的，那么有关小学英语教学论文要怎么写呢...

英语口语学习必看的方法技巧英语口语学习必看的方法技巧如何才能说流利的英语？说外语时，我们主要应做到四件事：理解、回答、提问、...

四级英语作文选:Birth ... 四级英语作文范文选:Birth controlSince the Chinese Governmen...

金融专业英语面试自我介绍金融专业英语面试自我介绍3篇　　金融专业的学生面试时，面试官要求用英语做自我介绍该怎么说。下面是小编...

我的李老师走了四年级英语日记... 我的李老师走了四年级英语日记带翻译　　我上了五个学期的小学却换了六任老师，李老师是带我们班最长的语文...

小学三年级英语日记带翻译捡玉... 小学三年级英语日记带翻译捡玉米　　今天，我和妈妈去外婆家，外婆家有刚剥的`玉米棒上带有玉米籽，好大的...

七年级英语优秀教学设计七年级英语优秀教学设计　　作为一位兢兢业业的人民教师，常常要写一份优秀的教学设计，教学设计是把教学原...

我的英语老师作文我的英语老师作文（通用21篇）　　在日常生活或是工作学习中，大家都有写作文的经历，对作文很是熟悉吧，...

英语老师教学经验总结英语老师教学经验总结（通用19篇）　　总结是指社会团体、企业单位和个人对某一阶段的学习、工作或其完成...

初一英语暑假作业答案初一英语暑假作业答案　　英语练习一(基础训练)第一题1.D2.H3.E4.F5.I6.A7.J8.C...

大学生的英语演讲稿大学生的英语演讲稿范文（精选10篇）　　使用正确的写作思路书写演讲稿会更加事半功倍。在现实社会中，越...

VOA美国之音英语学习网址 VOA美国之音英语学习推荐网址美国之音网站已经成为语言学习最重要的资源站点，在互联网上还有若干网站...

商务英语期末试卷 Part I Term Translation (20%)Section A: Translate ...

Spark 磁盘作用

Spark 磁盘作用

磁盘作用

性能价值

失败重试

ReuseExchange

相关内容

热门资讯