HDFS配置中可通过以下方式进行数据备份:
启用快照机制
hdfs dfsadmin -allowSnapshot允许目录创建快照,再使用hdfs dfs -createSnapshot生成快照。hdfs dfsadmin -listSnapshots,删除快照:hdfs dfsadmin -deleteSnapshot。配置副本因子
hdfs-site.xml,设置dfs.replication参数(默认3,可根据需求调整)。hdfs dfsadmin -setReplication /path 3。跨集群复制(DistCp)
hadoop distcp命令实现不同集群间数据备份,支持全量/增量复制。hadoop distcp hdfs://源集群:端口/源路径 hdfs://目标集群:端口/目标路径。第三方工具备份
脚本自动化备份
hdfs dfs -cp或tar命令,通过cron定时任务定期备份。hdfs dfs -cp /源路径 /备份路径,并记录日志。注意事项: