dataframe與rdd最大的區別，RDD依賴與DAG

2023-12-06 阅读 16 评论 0

摘要：寬依賴 & 窄依賴在spark中,rdd間的依賴關系分為兩種,寬依賴和窄依賴 wide: 父RDD的一個分區對應子RDD的一個分區該轉換過程的算子叫做窄依賴算子,比如map,filter,union,flatMap narrow: 父RDD的一個分區對應子RDD的多個分區該轉換過程的算子叫做寬依賴算子,比如groupBy

寬依賴 & 窄依賴

在spark中,rdd間的依賴關系分為兩種,寬依賴和窄依賴
wide:
父RDD的一個分區對應子RDD的一個分區
該轉換過程的算子叫做窄依賴算子,比如map,filter,union,flatMap

narrow:
父RDD的一個分區對應子RDD的多個分區
該轉換過程的算子叫做寬依賴算子,比如groupByKey. reduceByKey aggravateByKey

dataframe與rdd最大的區別？在這里插入圖片描述
源碼

abstract class Dependency[T] extends Serializable {def rdd: RDD[T]
}

寬依賴 & 窄依賴在源碼中的體現
在這里插入圖片描述
為何要劃分這個?
為了確定是否需要shuffle,進而可以劃分stage.

lineage 血統

什么是血統?
RDD之間的依賴關系,這種關系鏈叫做血緣關系.該關系在DAG中維護.

這樣當某一個分區數據丟失,

先看是否有緩存
在看是否有檢查點
從上一個RDD重新計算,不需要從頭計算.提高效率

DAG

有方向,沒有回流的圖,
在這里插入圖片描述

在這里插入圖片描述

原文链接：https://hbdhgg.com/3/189371.html

上一篇：hbase菜鳥教程，Hbase優化入門

下一篇：scala基礎練習

标签：dataframe與rdd最大的區別產生rdd窄依賴什么是rdd rddmap 數據庫傳遞依賴 rdd與dataframe的區別 rdd窄依賴算子 RDD窄依賴

dataframe與rdd最大的區別

发表评论: