CentOS HDFS配置更新步骤
使用SSH等远程访问工具登录到运行Hadoop集群的CentOS服务器,确保具备root或hadoop用户权限。
Hadoop配置文件通常存放在两个标准路径之一:/etc/hadoop/conf(部分系统默认路径)或$HADOOP_HOME/etc/hadoop(推荐路径,$HADOOP_HOME为Hadoop安装根目录)。可通过以下命令快速定位:
echo $HADOOP_HOME # 查看HADOOP_HOME环境变量 find / -type d -name "conf" 2>/dev/null | grep hadoop # 全局搜索conf目录 修改配置前务必备份,防止误操作导致集群异常。可使用tar命令打包备份:
cd /etc/hadoop/conf # 或$HADOOP_HOME/etc/hadoop tar -czvf hadoop-config-backup-$(date +%Y%m%d%H%M%S).tar.gz * 或单独备份核心配置文件(如core-site.xml、hdfs-site.xml):
cp core-site.xml core-site.xml.bak cp hdfs-site.xml hdfs-site.xml.bak 使用文本编辑器(如vi、nano)打开需要更新的配置文件,根据需求调整参数。常见配置文件及作用:
示例(修改hdfs-site.xml中的副本数):
vi $HADOOP_HOME/etc/hadoop/hdfs-site.xml 在<configuration>标签内添加/修改属性:
<property> <name>dfs.replication</name> <value>3</value> <!-- 设置副本数为3 --> </property> 保存并退出(vi模式下按Esc→输入:wq→回车)。
若集群有多个节点(如NameNode、DataNode、ResourceManager),需将更新后的配置文件同步到所有节点。使用scp命令批量传输:
scp /etc/hadoop/conf/core-site.xml root@datanode1:/etc/hadoop/conf/ scp /etc/hadoop/conf/hdfs-site.xml root@datanode1:/etc/hadoop/conf/ # 重复操作所有DataNode节点 或使用rsync工具提高效率:
rsync -avz /etc/hadoop/conf/ root@datanode1:/etc/hadoop/conf/ 配置生效后需重启服务,使新配置生效。根据系统初始化工具选择对应命令:
sudo systemctl stop hadoop-namenode hadoop-datanode # 停止服务 sudo systemctl start hadoop-namenode hadoop-datanode # 启动服务 sudo service hadoop-namenode stop sudo service hadoop-datanode stop sudo service hadoop-namenode start sudo service hadoop-datanode start 建议先停止DataNode再停止NameNode,启动时先启动NameNode再启动DataNode,避免数据不一致。
通过Hadoop命令行工具检查配置是否生效:
hdfs dfsadmin -report 确认输出中的Live datanodes数量、Replication(副本数)等参数是否符合预期。sudo systemctl status hadoop-namenode # 查看NameNode状态 sudo systemctl status hadoop-datanode # 查看DataNode状态 确保服务状态为active (running)。