CentOS HDFS配置更新步骤

CentOS HDFS配置更新步骤

1. 连接到CentOS服务器

使用SSH等远程访问工具登录到运行Hadoop集群的CentOS服务器，确保具备root或hadoop用户权限。

2. 定位Hadoop配置文件目录

Hadoop配置文件通常存放在两个标准路径之一：/etc/hadoop/conf（部分系统默认路径）或$HADOOP_HOME/etc/hadoop（推荐路径，$HADOOP_HOME为Hadoop安装根目录）。可通过以下命令快速定位：

echo $HADOOP_HOME # 查看HADOOP_HOME环境变量 find / -type d -name "conf" 2>/dev/null | grep hadoop # 全局搜索conf目录

3. 备份原始配置文件（必选）

修改配置前务必备份，防止误操作导致集群异常。可使用tar命令打包备份：

cd /etc/hadoop/conf # 或$HADOOP_HOME/etc/hadoop tar -czvf hadoop-config-backup-$(date +%Y%m%d%H%M%S).tar.gz *

或单独备份核心配置文件（如core-site.xml、hdfs-site.xml）：

cp core-site.xml core-site.xml.bak cp hdfs-site.xml hdfs-site.xml.bak

4. 修改配置文件

使用文本编辑器（如vi、nano）打开需要更新的配置文件，根据需求调整参数。常见配置文件及作用：

core-site.xml：定义Hadoop核心设置（如HDFS地址、临时目录）；
hdfs-site.xml：配置HDFS行为（如副本数、NameNode/DataNode存储路径）；
yarn-site.xml：管理YARN资源调度（如ResourceManager地址）；
mapred-site.xml：配置MapReduce框架（如使用YARN作为计算框架）。

示例（修改hdfs-site.xml中的副本数）：

vi $HADOOP_HOME/etc/hadoop/hdfs-site.xml

在<configuration>标签内添加/修改属性：

<property> <name>dfs.replication</name> <value>3</value> <!-- 设置副本数为3 --> </property>

保存并退出（vi模式下按Esc→输入:wq→回车）。

5. 同步配置到所有节点

若集群有多个节点（如NameNode、DataNode、ResourceManager），需将更新后的配置文件同步到所有节点。使用scp命令批量传输：

scp /etc/hadoop/conf/core-site.xml root@datanode1:/etc/hadoop/conf/ scp /etc/hadoop/conf/hdfs-site.xml root@datanode1:/etc/hadoop/conf/ # 重复操作所有DataNode节点

或使用rsync工具提高效率：

rsync -avz /etc/hadoop/conf/ root@datanode1:/etc/hadoop/conf/

6. 重启Hadoop服务

配置生效后需重启服务，使新配置生效。根据系统初始化工具选择对应命令：

Systemd（现代CentOS版本，如7/8）：

sudo systemctl stop hadoop-namenode hadoop-datanode # 停止服务 sudo systemctl start hadoop-namenode hadoop-datanode # 启动服务

SysVinit（旧版本CentOS，如6）：

sudo service hadoop-namenode stop sudo service hadoop-datanode stop sudo service hadoop-namenode start sudo service hadoop-datanode start

建议先停止DataNode再停止NameNode，启动时先启动NameNode再启动DataNode，避免数据不一致。

7. 验证配置更改

通过Hadoop命令行工具检查配置是否生效：

查看HDFS集群状态：
```
hdfs dfsadmin -report 
```
确认输出中的Live datanodes数量、Replication（副本数）等参数是否符合预期。

检查服务运行状态：

sudo systemctl status hadoop-namenode # 查看NameNode状态 sudo systemctl status hadoop-datanode # 查看DataNode状态

确保服务状态为active (running)。