hdfs读取文件流程，Spark 中 File,Block,Split,Task,Partition,RDD概念的理解-基礎知識庫-匯編語言學習筆記

hdfs读取文件流程，Spark 中 File,Block,Split,Task,Partition,RDD概念的理解

2023-09-23 阅读 23 评论 0

摘要：1，在 HDFS 中会以 Block 为单位进行存储很多的 File，也就是说每个 File 可能会被拆分成多个 Block 存储在 HDFS 上； 2，当 Spark 读取 HDFS 上的文件作为输入时，会根据具体数据格式对应的 InputFormat 进行解析，一般情况下是将很多个

1，在 HDFS 中会以 Block 为单位进行存储很多的 File，也就是说每个 File 可能会被拆分成多个 Block 存储在 HDFS 上；

2，当 Spark 读取 HDFS 上的文件作为输入时，会根据具体数据格式对应的 InputFormat 进行解析，一般情况下是将很多个 Block 合并成一个 InputSplit（InputSplit不能跨越文件）；

3，然后，会将这些 InputSplit 生成具体的 Task，一个 InputSplit 对应一个 Task；

4，然后这些 Task 会被分配到集群上的节点中每个 Executor 去执行；

注：

hdfs读取文件流程，a，每个节点上会起一个或多个 Executor ；

b，每个 Executor 是由若干个 core 组成（这里的 core 是虚拟的 core，并不是指物理机器的 cpu 核，一般来说 spark 配置的 executor 核数不应该超过该节点的物理 cpu 核数），每个 core 一次只能执行一个 Task，其实这里的每个 Task 对应一个线程；

5，每个 Task 执行的结果就是生成了下一个 RDD 的一个 Partiotion；

具体可以看下图：

hdfs创建文件夹，参考：www.zhihu.com/question/33…

原文链接：https://hbdhgg.com/5/92745.html