以下是CentOS上排查HBase故障的核心技巧,结合搜索资源中的关键步骤整理:
查看日志
/var/log/hbase/tail -f hbase-*-master-*.log 或 grep -i "ERROR" *.log,重点关注Exception、FATAL等关键字。检查进程
jps确认HMaster、HRegionServer是否运行。/etc/init.d/hbase restart。验证配置文件
hbase-site.xml关键参数: hbase.cluster.distributed(分布式模式需设为true)。hbase.rootdir(指向正确的HDFS路径)。hbase.zookeeper.quorum(ZooKeeper节点地址)。hbase-env.sh中JAVA_HOME、HBASE_HOME是否正确。测试网络连通性
ping、traceroute检查节点间网络。16010(HMaster)、16020(RegionServer))。端口占用检查
netstat -tulnp | grep <端口号>确认端口未被占用。系统资源监控
top、htop、df -h检查CPU、内存、磁盘空间。依赖服务状态
hdfs dfsadmin -report,确保NameNode和DataNode正常。zkServer.sh status,修复脑裂或节点失联问题。HBase自带工具
hbase hbck:修复元数据不一致、Region分配异常。hbase shell:执行status 'detailed'查看集群状态,balance_switch 'on'开启负载均衡。第三方工具
hbase.regionserver.heapsize,优化GC参数(如-XX:+UseG1GC)。hbase hbck -fixMeta -fixAssignments修复。hbase用户对数据目录有读写权限。hfile.block.size、memstore.flush.size等参数。参考来源: