hdfs读取文件流程,Spark 中 File,Block,Split,Task,Partition,RDD概念的理解

 2023-09-23 阅读 23 评论 0

摘要:1,在 HDFS 中会以 Block 为单位进行存储很多的 File,也就是说每个 File 可能会被拆分成多个 Block 存储在 HDFS 上; 2,当 Spark 读取 HDFS 上的文件作为输入时,会根据具体数据格式对应的 InputFormat 进行解析,一般情况下是将很多个

1,在 HDFS 中会以 Block 为单位进行存储很多的 File,也就是说每个 File 可能会被拆分成多个 Block 存储在 HDFS 上;

2,当 Spark 读取 HDFS 上的文件作为输入时,会根据具体数据格式对应的 InputFormat 进行解析,一般情况下是将很多个 Block 合并成一个 InputSplit(InputSplit不能跨越文件);

3,然后,会将这些 InputSplit 生成具体的 Task,一个 InputSplit 对应一个 Task;

4,然后这些 Task 会被分配到集群上的节点中每个 Executor 去执行;

注:

hdfs读取文件流程,a,每个节点上会起一个或多个 Executor ;

b,每个 Executor 是由若干个 core 组成(这里的 core 是虚拟的 core,并不是指物理机器的 cpu 核,一般来说 spark 配置的 executor 核数不应该超过该节点的物理 cpu 核数),每个 core 一次只能执行一个 Task,其实这里的每个 Task 对应一个线程;

5,每个 Task 执行的结果就是生成了下一个 RDD 的一个 Partiotion;

具体可以看下图:

hdfs创建文件夹,参考:www.zhihu.com/question/33…

版权声明:本站所有资料均为网友推荐收集整理而来,仅供学习和研究交流使用。

原文链接:https://hbdhgg.com/5/92745.html

发表评论:

本站为非赢利网站,部分文章来源或改编自互联网及其他公众平台,主要目的在于分享信息,版权归原作者所有,内容仅供读者参考,如有侵权请联系我们删除!

Copyright © 2022 匯編語言學習筆記 Inc. 保留所有权利。

底部版权信息