Spark Catalyst
创始人
2024-05-29 15:03:36
0

Spark Catalyst

  • 逻辑计划
    • 逻辑计划解析
    • 逻辑计划优化
    • Catalyst 规则优化过程
  • 物理计划
    • Spark Plan
      • JoinSelection
    • 生成 Physical Plan
      • EnsureRequirements

Spark SQL 端到端的优化流程:

  • Catalyst 优化器 : 包含逻辑优化/物理优化
  • Tungsten :

Spark SQL的优化过程 :

在这里插入图片描述

逻辑计划

val userFile: String = _
val usersDf = spark.read.parquet(userFile)val txFile: String = _
val txDf = spark.read.parquet(txFile)val users = usersDf.select("name", "age", "userId").filter($"age" < 30).filter($"gender".isin("M"))val result = txDF.select("price", "volume", "userId").join(users, Seq("userId"), "inner").groupBy(col("name"), col("age")).agg(sum(col("price") * col("volume")).alias("sum")result.write.parquet("_")

计算逻辑 :

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EkAXwKmc-1678098435847)(../../png/Catalyst/image-20230213212938895.png)]

Catalyst 逻辑优化阶段:

  • 逻辑计划解析 : 把 Unresolved Logical Plan 换为 Analyzed Logical Plan
  • 逻辑计划优化 : 基于启发式规则(Heuristics Based Rules) ,把 Analyzed Logical Plan 转为 Optimized Logical Plan

Catalyst 逻辑优化阶段

在这里插入图片描述

Unresolved Logical Plan :

在这里插入图片描述

逻辑计划解析

逻辑计划解析 : 结合 DataFrame 的 Schema ,确认计划中的表名、字段名、字段类型和实际数据是否一致。确认后,就生成 Analyzed Logical Plan

Analyzed Logical Plan :

在这里插入图片描述

逻辑计划优化

同种计算逻辑的多种实现方式 :

  • 按照不同的顺序对算子做排列组合
  • 最好顺序:能省则省、能拖则拖的开发原则,选择所有实现方式中最优

在这里插入图片描述

Catalyst 优化规则范畴 :

  • 谓词下推(Predicate Pushdown):把谓词 (过滤条件 age < 30) 推到离数据源最近
  • 列剪裁(Column Pruning): 只扫描与查询相关的字段
  • 常量替换 (Constant Folding): 如 :age <12 + 18 优化成 age < 30

Cache Manager 优化 :

  • Cache Manager :维护与缓存相关信息。即:维护 Mapping 映射字典,Key :逻辑计划,Value :对应的 Cache 元信息
  • 当 Catalyst 进行逻辑计划优化时,先在 Cache Manager 查找,当该逻辑计划分支在 Cache Manager 时,就进行替换该计划

Optimized Logical Plan :

在这里插入图片描述

Catalyst 规则优化过程

逻辑计划(Logical Plan),物理计划(Physical Plan)都继承 QueryPlan

QueryPlan 父类: TreeNode

  • TreeNode :语法树中对节点的抽象
  • TreeNode 有个字段 children ,类型是 Seq[TreeNode]
  • 利用 TreeNode 类型,能构建出树结构

TreeNode 定义了很多高阶函数,如:transformDown

  • transformDown 的形参: 各种优化规则,返回类型是 TreeNode
  • transformDown 是递归函数,先优化当前节点,再依次优化 children 中的子节点,直到整棵树的叶子节点

transformDown 类似转换过程:

//Expression的转换
import org.apache.spark.sql.catalyst.expressions._val myExpr: Expression = Multiply(Subtract(Literal(6), Literal(4)), Subtract(Literal(1), Literal(9)))val transformed: Expression = myExpr transformDown {// 二元操作符,转成加法操作case BinaryOperator(l, r) => Add(l, r)// 大于 5 ,转成 1case IntegerLiteral(i) if i > 5 => Literal(1)// 小于 5 ,转成转成 0case IntegerLiteral(i) if i < 5 => Literal(0)
}

转换过程意图:

在这里插入图片描述

物理计划

物理计划阶段(Physical Planning) :

  • 优化 Spark Plan :根据优化策略 (Strategies),把逻辑计划的关系操作符映射成物理操作符
  • 生成 Physical Plan :根据 Preparation Rules,对 Spark Plan 进行完善

在这里插入图片描述

Spark Plan

Spark Plan 优化策略 :

  • 基于模式匹配的偏函数(Partial Functions),把逻辑计划中的操作符平行映射为 Spark Plan 中的物理算子
类型优化策略含义&作用
通用BasicOperators逻辑到物理的基本映射:如Project/Filter/Sort
JoinSelection静态 Joln 策略选择
InMemoryScans缓存策略,对应逻辑优化阶段的 Cache Manager
Aggregation聚合策路
Window窗口计算策酪
SpecialLimits与 Limit 相关的优化策路
PythonEvalsPython UDF 优化策路
SparkScriptsTransformation 脚本优化策略
StreamingStatefulAggregationStrategy有状态的聚合策略
StreamingDeduplicationStrategy流处理中的去重策路
StreamingGlobalLimitStrategy流处理中的 Limit 处理策略
StreamingJoinStrategy流处理中的 Join 策略
StreamingRelationStrategy数据源读取策酪
FlatMapGroupsWithStateStrategy流处理中的 FlatMap 优化

JoinSelection

Catalyst 运行时的 Join 策略:

Join 策略执行效率排序含义
Broadcast Hash Join (BHJ)最优小表构建哈希表,把小表广播进行关联
Shuffle Sort Merge Join (SMJ)次优先 Shuffle , 再排序进行关联
Shuffle Hash Join (SHJ)次优先 Shuffle , 再构建哈希表进行关联
Broadcast Nested Loop Join (BNLJ)最差将小表广播进行关联
Shuffle Cartesian Product Join (CPJ)最差先 Shuffle 进行关联

数据分发与 Join 实现机制的组合 :

在这里插入图片描述

Join 策略的先决条件 :

  • 条件型 : 判决 5 大 Join 策略的先决条件
  • 指令型:开发者提供的 Join Hints

5 种 Join 策略的先决条件:

选择顺序Join 策略Join 类型表大小
等值 JoinInner Join不能 Full Outer Join能广播
1BHJ
2SMJ
3SHJ
4BNLJ
5CPJ

指令型信息: Join Hints,允许个人选择 Join 策略

  • 选择 SHJ :
val result = txDF.select("price", "volume", "userId").join(users.hint("shuffle_hash"), Seq("userId"), "inner").groupBy(col("name"), col("age")).agg(sum(col("price") * col("volume")).alias("revenue"))

Spark Plan :Join 策略是 SMJ

在这里插入图片描述

生成 Physical Plan

从 Spark Plan 到 Physical Plan 的转换,需要 Preparation Rules 规则

Preparation Rules :

Preparation Rules含义作用
EnsureRequirements确保每个操作符的输入要求,必要时添加 Shuffle/Sort为 Physical Plan 补充必要的操作,保证 Spark Plan 计划的每个步骤能够顺利执行
CollapseCodegenStagesTungsten 优化机制:全阶段代码生成(Whole Stage Code Generation)在同个 Stage 内部,尽可能地把所有操作和计算捏合成一个函数,提升计算效率
ReuseExchange内存或磁盘中的存储复用同样的执行计划能共享广播变量或 Shuffle 的中间结果,避免重复的 Shuffle 操作
ReuseSubquery子查询复用复用同样的查询结果,避免重复计算
PlanSubquery生成子查询对子查询应用 Preparation Rules
ExtractPythonUDFs提取 Python 的 UDF 函数把 Python UDF 分发到单独的 Python 进程

EnsureRequirements

EnsureRequirements (满足前提条件) : 对执行计划中的每个操作符节点,都有 4 个属性用来描述数据输入/ 输出的分布状态

操作符属性含义
outputPartitioning输出数据的分区规则
outputOrdering输出数据的排序规则
requireChildDistribution要求输入数据满足某种分区规则
requireChildOrdering要求输入数据满足某种排序规则

Project 不满足 SortMergeJoin 的 Requirements:

  • outputPartitioning 属性 :Unknow,未 Shuffle
  • outputOrdering 属性: None ,未排序

在这里插入图片描述

EnsureRequirements 规则添加 Exchange/Sort :

  • Exchange : Shuffle 操作,满足 SortMergeJoin 对数据分布的要求
  • Sort :排序,满足 SortMergeJoin 对数据有序的要求
  • 调用 Physical Plan 的 doExecute 方法,把结构化查询的计算结果,转换成
    RDD[InternalRow]
  • InternalRow :Tungsten 设计的定制化二进制数据结构
  • 调用 RDD[InternalRow] 上的 Action 算子,Spark 就触发 Physical Plan 执行

在这里插入图片描述

Physical Plan :

  • EnsureRequirements 在两个分支上添加 Exchange/Sort
  • *(数字) : * : WSCG,数字 : Stage 编号
  • 数字相同会 WSCG 合成

在这里插入图片描述

相关内容

热门资讯

合肥包公园导游词 合肥包公园导游词  包公园,位于安徽省合肥市芜湖路72号,始建于北宋嘉祐七年,是为纪念北宋著名清官包...
景点贵阳花溪公园导游词 景点贵阳花溪公园导游词  作为一位兢兢业业的旅游从业人员,时常需要用到导游词,借助导游词可以更好地宣...
孔庙导游词   孔庙导游词(一)  尊敬的各位来宾:  你们好!我受旅游、接待部门的委托,对光临名城曲阜参观游览...
石家庄驼梁景区导游词 石家庄驼梁景区导游词尊敬的各位游客:  大家好!  欢迎大家来到驼梁,我是中游旅行社的一名导游员,我...
介绍傣家竹楼导游词300 傣家竹楼是傣族固有的典型建筑。下层高约七八尺,四无遮栏,牛马拴束于柱上。上层近梯处有一露台,转进为长...
电视剧《乱世佳人》简介及经典... 电视剧《乱世佳人》简介及经典台词  电视剧简介:  《乱世佳人》亦可称为民国版《美人心计》,由唐嫣饰...
丹东鸭绿江导游词 丹东鸭绿江导游词  鸭绿江是我们中国和朝鲜的分界线,各位导游,请看下面的丹东鸭绿江导游词,希望可以帮...
幼儿园运动会闭幕式主持词 幼儿园运动会闭幕式主持词  主持人在台上表演的灵魂就表现在主持词中。随着社会一步步向前发展,各种场合...
70大寿主持词 70大寿主持词  主持词的写作需要将主题贯穿于所有节目之中。现今社会在不断向前发展,主持人的需求越来...
个人领奖感谢词 个人领奖感谢词(精选7篇)  获得奖励或者嘉奖,不仅是一份荣誉,更是一份激励。你知道怎么写感谢词吗,...
重阳节经典致辞 关于重阳节经典致辞(精选6篇)  在生活、工作和学习中,大家都不可避免地会接触到致辞吧,致辞要求风格...
幼儿园元旦文艺汇演主持词 男小主持:尊敬的家长,亲爱的老师女小主持:可爱的小朋友合:大家新年好!男小主持:春夏秋冬,黑夜清晨女...
大话西游降妖篇2台词 大话西游降妖篇2台词  导语:《西游伏妖篇》也是继春节档周星驰执导电影《美人鱼》中徐克客串表演之后,...
晚会活动主持词   引导语:晚会最重要的一点就是主持,而有关晚会活动的主持词要怎么写呢?接下来是小编为你带来收集整理...
周年庆活动主持词 周年庆活动主持词9篇  借鉴诗词和散文诗是主持词的一种写作手法。在人们越来越多的参与各种活动的今天,...
《手机》经典台词 《手机》经典台词  砖头媳妇:装得跟头会想事的猪一样。  于文娟:老费吃了不管用,说明他不是不能,而...
公司工会代表大会主持词 公司工会代表大会主持词  各位代表:  请大家坐好,会议马上就要开始了,公司工会代表大会主持词。(待...
影视剧里那些讲完就领便当的台... 关于影视剧里那些讲完就领便当的台词  无论是什么类型的影视作品,片中的角色在将死之前大都会变得不太一...
高三毕业典礼主持词 高三毕业典礼主持词15篇  主持词的写作需要将主题贯穿于所有节目之中。在如今这个时代,活动集会越来越...
班会主持词 班会主持词(精选12篇)  根据活动对象的不同,需要设置不同的主持词。在如今这个时代,各种集会中主持...