Hadoop HDFS基本结构是怎样的

发布时间：2021-12-10 09:34:43 来源：亿速云阅读：129 作者：iii 栏目：云计算

# Hadoop HDFS基本结构是怎样的 ## 一、HDFS概述 Hadoop分布式文件系统（Hadoop Distributed File System，简称HDFS）是Apache Hadoop项目的核心组件之一，专为存储超大规模数据集（TB级甚至PB级）而设计。其核心设计理念源自Google的GFS论文，具有高容错、高吞吐量、低成本部署等特点。 ## 二、HDFS架构设计 ### 1. 主从架构模型 HDFS采用经典的主从（Master/Slave）架构： - **NameNode（主节点）**：负责管理文件系统的命名空间（Namespace）和客户端访问 - **DataNode（从节点）**：存储实际数据块的节点集群 ### 2. 核心组件功能 | 组件 | 主要职责 | |-------------|--------------------------------------------------------------------------| | NameNode | 维护文件系统树和所有文件的元数据（inode信息、块映射表等） | | DataNode | 存储实际数据块，定期向NameNode发送心跳和块报告 | | Secondary NameNode | 执行检查点操作（非热备节点） | | Client | 与HDFS交互的终端用户或应用程序 | ## 三、物理存储结构 ### 1. 数据分块机制 - 文件被分割为固定大小的**块（Block）**（默认128MB，可配置） - 每个块独立存储，支持并行处理 - 块大小远大于传统文件系统，减少寻址开销 ### 2. 多副本存储 ```python # 副本放置策略示例（默认3副本）： 1. 第一个副本：写入客户端所在节点（若为集群外则随机选择） 2. 第二个副本：不同机架的随机节点 3. 第三个副本：与第二副本同机架的不同节点

3. 存储目录结构

DataNode数据目录典型结构：

/hdfs/data/ ├── current/ │ ├── BP-19354842-10.0.0.1-1434536125432/ │ │ ├── finalized/ # 已提交的块文件 │ │ └── rbw/ # 临时写入中的块 └── in_use.lock # 进程锁文件

四、逻辑命名空间

1. 文件系统层次

类Unix的层级目录结构
支持常规文件操作（create/delete/move等）

2. 元数据管理

NameNode内存中维护两个关键数据结构： - FsImage：完整的命名空间镜像（定期持久化到磁盘） - EditLog：记录所有更改操作的日志（先写日志机制）

Hadoop HDFS基本结构是怎样的

五、高可用机制

1. NameNode HA方案

主备NameNode：通过ZooKeeper实现故障自动转移
共享存储：使用QJM（Quorum Journal Manager）维护EditLog一致性

2. 数据可靠性保障

副本自动修复（损坏检测→重新复制）
机架感知（Rack Awareness）策略
校验和（Checksum）验证机制

六、读写流程解析

1. 文件写入流程

Client切分文件为多个块
从NameNode获取DataNode列表
建立管道（Pipeline）顺序写入
接收确认后提交元数据

sequenceDiagram Client->>NameNode: 创建文件请求 NameNode->>Client: 返回分配列表 Client->>DataNode1: 发送数据包 DataNode1->>DataNode2: 转发数据 DataNode2->>DataNode3: 转发数据 DataNode3->>DataNode2: 确认回执 DataNode2->>DataNode1: 确认回执 DataNode1->>Client: 写入完成确认

2. 文件读取流程

Client向NameNode获取块位置信息
直接从最近的DataNode读取数据
校验数据完整性

七、关键设计特点

适合大文件：高吞吐量但高延迟
流式访问：”一次写入多次读取”模型
硬件容错：自动处理节点故障
移动计算而非数据：支持数据本地化计算

八、典型应用场景

海量日志存储分析
数据仓库基础存储
机器学习训练数据池
视频/图片等非结构化数据存储

注意：HDFS不适合需要低延迟访问、大量小文件存储或频繁修改的场景。

九、演进与发展

随着Hadoop 3.x的发布，HDFS新增了： - Erasure Coding（纠删码）存储策略 - 基于Router的联邦架构 - 支持多个NameService的视图联邦

未来HDFS将继续向更高性能、更强一致性和云原生支持方向演进。 “`

（注：实际使用时需补充示意图链接或替换为本地图片路径，本文约1200字）

向AI问一下细节

Hadoop HDFS基本结构是怎样的

3. 存储目录结构

四、逻辑命名空间

1. 文件系统层次

2. 元数据管理

五、高可用机制

1. NameNode HA方案

2. 数据可靠性保障

六、读写流程解析

1. 文件写入流程

2. 文件读取流程

七、关键设计特点

八、典型应用场景

九、演进与发展

猜你喜欢

最新资讯

相关推荐

相关标签