Hadoop在Ubuntu上的故障排查技巧

Hadoop在Ubuntu上的故障排查技巧

1. 检查Hadoop进程状态

使用jps命令查看Ubuntu系统中运行的Hadoop Java进程，确认核心组件（NameNode、DataNode、ResourceManager、NodeManager等）是否正常启动。若缺少关键进程（如无NameNode），说明对应组件启动失败，需进一步排查日志。

2. 查看Hadoop日志文件

Hadoop的日志文件位于$HADOOP_HOME/logs目录下（如hadoop-<username>-namenode-<hostname>.log、hadoop-<username>-datanode-<hostname>.log），是定位故障的核心依据。使用tail -f命令实时查看日志末尾的错误信息（如ERROR、Fatal关键字），或用grep过滤特定异常（如“Connection refused”“Incompatible clusterIDs”）。

3. 验证HDFS状态

通过hdfs dfsadmin -report命令检查HDFS集群的健康状况，包括NameNode/Datanode的连接状态、存储目录容量、数据块分布等。若显示“Live datanodes: 0”，说明DataNode未成功连接，需排查网络或配置问题。

4. 检查YARN服务状态

使用yarn node -list命令查看ResourceManager管理的NodeManager列表，确认NodeManager是否正常注册。若NodeManager未列出，检查yarn-site.xml中的yarn.resourcemanager.hostname配置是否正确，以及NodeManager日志中的启动错误。

5. 测试网络连通性

Hadoop集群依赖节点间的网络通信，使用ping <node_ip>命令测试各节点之间的连通性。若无法ping通，需检查Ubuntu的网络配置（如IP地址、子网掩码、网关）或物理连接。对于分布式集群，还需确保/etc/hosts文件中主机名与IP地址的映射正确（如192.168.1.101 master）。

6. 审查Hadoop配置文件

重点检查$HADOOP_HOME/etc/hadoop目录下的核心配置文件：

core-site.xml：确认fs.defaultFS（如hdfs://192.168.1.101:9000）指向正确的NameNode地址；
hdfs-site.xml：检查dfs.replication（副本数，通常设为3）、dfs.namenode.name.dir（NameNode元数据存储路径）、dfs.datanode.data.dir（DataNode数据存储路径）的配置是否正确且路径存在；
yarn-site.xml：确认yarn.resourcemanager.hostname（ResourceManager地址）、yarn.nodemanager.aux-services（设为mapreduce_shuffle）的配置；
mapred-site.xml：设置mapreduce.framework.name为yarn。

7. 重启Hadoop服务

若修改配置文件或修复故障后，需依次执行以下命令重启服务：

$HADOOP_HOME/sbin/stop-dfs.sh # 停止HDFS $HADOOP_HOME/sbin/stop-yarn.sh # 停止YARN $HADOOP_HOME/sbin/start-dfs.sh # 启动HDFS $HADOOP_HOME/sbin/start-yarn.sh # 启动YARN

重启后再次用jps和日志确认服务状态。

8. 分析系统资源使用

使用top、htop或vmstat命令监控Ubuntu系统的CPU、内存、磁盘I/O使用情况。若CPU占用过高（如NameNode占用100%），可能是元数据过多或配置不合理；若内存不足，需调整yarn.nodemanager.resource.memory-mb（NodeManager可用内存）或mapreduce.map.memory.mb（Map任务内存）等参数。

9. 检查磁盘空间

使用df -h命令查看HDFS数据目录（如dfs.data.dir、dfs.name.dir）所在磁盘的剩余空间。若磁盘空间不足（如小于10%），DataNode或NameNode可能无法正常启动，需清理无用文件或扩展磁盘。

10. 处理常见特定错误

ClusterID不匹配：若DataNode启动时报“clusterID mismatch”错误（如NameNode的clusterID为CID-123，DataNode为CID-456），需停止所有服务，删除DataNode存储目录（如dfs/data）中的current文件夹（保留VERSION文件），然后重新格式化NameNode并启动集群；
SSH连接问题：若启动时出现“ssh: Could not resolve hostname”或“Permission denied”错误，需在~/.bashrc中添加export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native并执行source ~/.bashrc，同时确保~/.ssh/config中配置了StrictHostKeyChecking no（测试环境）；
权限问题：若出现“Cannot create directory”或“Permission denied”错误，需用chmod -R 777命令给Hadoop相关目录（如/tmp、/logs、dfs/data）赋予读写权限（生产环境建议使用更严格的权限设置，如755）。