Debian系统下HDFS与YARN协同工作,主要基于Hadoop生态架构实现,流程如下:
- 数据存储:用户将数据上传至HDFS,HDFS的NameNode负责管理文件元数据,DataNode存储实际数据块,默认以128MB为块大小进行切分存储,并通过副本机制(默认3副本)保障数据可靠性。
- 作业提交:用户通过客户端向YARN提交作业,如MapReduce作业。YARN的ResourceManager接收请求后,会根据集群资源状况,为作业分配资源。
- 任务调度:ResourceManager将任务分配给各个NodeManager,NodeManager启动容器来执行具体的Map和Reduce任务。在任务执行过程中,若需要读取数据,NodeManager会从HDFS中拉取数据块;处理完成后,再将中间结果或最终结果写回HDFS。