SparkPool，Spark Shuffle詳解剖析

2023-11-16 阅读 16 评论 0

摘要：HashShuffle 一：概述所謂Shuffle就是將不同節點上相同的Key拉取到一個節點的過程。這之中涉及到各種IO，所以執行時間勢必會較長，Spark的Shuffle在1.2之前默認的計算引擎是HashShuffleManager，不過HashShuffleManager有一個十分嚴重的弊端，

HashShuffle

一：概述

所謂Shuffle就是將不同節點上相同的Key拉取到一個節點的過程。這之中涉及到各種IO，所以執行時間勢必會較長，Spark的Shuffle在1.2之前默認的計算引擎是HashShuffleManager，不過HashShuffleManager有一個十分嚴重的弊端，就是會產生大量的中間文件。在1.2之后默認Shuffle改為SortShuffleManager，相對于之前，在每個Task雖然也會產生大量中間文件，但是最后會將所有的臨時文件合并（merge）成一個文件。因此Shuffle read只需要讀取時，根據索引拿到每個磁盤的部分數據就可以了

二：測試條件

每個Executor只有一個CUP（core），同一時間每個Executor只能執行一個task

三：HashShuffleManager未優化版本

首先從shuffle write階段，主要是在一個stage結束后，為了下一個stage可以執行shuffle，將每一個task的數據按照key進行分類，對key進行hash算法，從而使相同的key寫入同一個文件，每個磁盤文件都由下游stage的一個task讀取。在寫入磁盤時，先將數據寫入內存緩沖，當內存緩沖填滿后，才會溢寫到磁盤文件（似乎所以寫文件都需要寫入先寫入緩沖區，然后再溢寫，防止頻繁IO）

我們可以先算一下當前stage的一個task會為下一個stage創建多少個磁盤文件。若下一個stage有100個task，則當前stage的每一個task都將創建100個文件，若當前stage要處理的task為50個，共有10個Executor，也就是說每個Executor共執行5個task，5x100x10=1000。也就是說這么一個小規模的操作會生產5000個文件。這是相當可觀的。

而shuffle read 通常是一個stage一開始要做的事情。此時stage的每一個task去將上一個stage的計算結果的所有相同的key從不同節點拉到自己所在節點。進行聚合或join操作。在shuffle write過程，每個task給下游的每個task都創建了一個磁盤文件。在read過程task只需要去上游stage的task中拉取屬于自己的磁盤文件。

shuffle read是邊拉取邊聚合。每一個read task都有一個buffer緩沖，然后通過內存中的Map進行聚合，每次只拉取buffer大小的數據，放到緩沖區中聚合，直到所有數據都拉取完。
在這里插入圖片描述

四：SortShuffle

在Spark1.2版本之后，出現了SortShuffle，這種方式以更少的中間磁盤文件產生而遠遠優于HashShuffle。而它的運行機制主要分為兩種。一種為普通機制，另一種為bypass機制。而bypass機制的啟動條件為，當shuffle read task的數量小于等于spark.shuffle.sort.bypassMergeThreshold參數的值時（默認為200），就會啟用bypass機制。即當read task不是那么多的時候，采用bypass機制是更好的選擇。