在spark中,rdd間的依賴關系分為兩種,寬依賴和窄依賴
wide:
父RDD的一個分區對應子RDD的一個分區
該轉換過程的算子叫做窄依賴算子,比如map,filter,union,flatMap
narrow:
父RDD的一個分區對應子RDD的多個分區
該轉換過程的算子叫做寬依賴算子,比如groupByKey. reduceByKey aggravateByKey
dataframe與rdd最大的區別?
源碼
abstract class Dependency[T] extends Serializable {def rdd: RDD[T]
}
寬依賴 & 窄依賴在源碼中的體現
為何要劃分這個?
為了確定是否需要shuffle,進而可以劃分stage.
什么是血統?
RDD之間的依賴關系,這種關系鏈叫做血緣關系.該關系在DAG中維護.
這樣當某一個分區數據丟失,
有方向,沒有回流的圖,
版权声明:本站所有资料均为网友推荐收集整理而来,仅供学习和研究交流使用。
工作时间:8:00-18:00
客服电话
电子邮件
admin@qq.com
扫码二维码
获取最新动态