一、环境准备:系统与依赖配置
在Debian上部署Hadoop前,需完成基础环境配置。首先,升级系统至最新版本以修复安全漏洞:sudo apt update && sudo apt upgrade -y。接着,移除不必要的软件包(如Apache、Bind等)以减少资源占用:sudo apt -y purge apache2-* bind9-*。然后,安装Java 8或更高版本(Hadoop依赖Java环境):sudo apt install openjdk-8-jdk -y,并通过java -version验证安装。最后,安装SSH服务用于节点间无密码通信:sudo apt install openssh-server -y,并生成密钥对实现免密登录。
二、Hadoop安装与基础配置
/usr/local/目录:wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz && sudo tar -xzvf hadoop-3.3.1.tar.gz -C /usr/local/,并重命名目录为hadoop以简化操作。~/.bashrc文件,添加Hadoop路径:export HADOOP_HOME=/usr/local/hadoop、export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin,执行source ~/.bashrc使配置生效。hdfs://namenode:9000)和临时目录(如/usr/local/hadoop/tmp)。/usr/local/hadoop/dfs/name、/usr/local/hadoop/dfs/data)。mapreduce.framework.name=yarn)。yarn.nodemanager.aux-services=mapreduce_shuffle)及类路径(yarn.nodemanager.aux-services.mapreduce.shuffle.class=org.apache.hadoop.mapred.ShuffleHandler)。三、集群启动与验证
hdfs namenode -format。start-dfs.sh;在ResourceManager上启动YARN服务:start-yarn.sh。jps命令检查进程(NameNode、DataNode、ResourceManager、NodeManager需全部运行);或访问HDFS Web UI(http://namenode:9000)确认集群状态。四、性能优化关键措施
/etc/sysctl.conf,添加fs.file-max=800000,执行sysctl -p生效);关闭swap分区(sudo swapoff -a,并在/etc/fstab中注释swap行);调整TCP参数(如net.core.rmem_max=67108864、net.core.wmem_max=67108864)提升网络传输效率。dfs.namenode.handler.count=20*log2(集群规模))、数据块大小(dfs.block.size=128MB,适合大数据处理)。yarn.nodemanager.resource.memory-mb=4096、yarn.nodemanager.resource.cpu-vcores=4),合理分配Container资源(yarn.scheduler.minimum-allocation-mb=1024、yarn.scheduler.maximum-allocation-mb=8192)。mapreduce.map.memory.mb=2048、mapreduce.reduce.memory.mb=4096)、设置Shuffle环形缓冲区大小(mapreduce.task.io.sort.mb=100MB),减少磁盘IO。export HADOOP_OPTS="-Xmx4g"),选择低延迟垃圾回收器(如G1GC:-XX:+UseG1GC),减少Full GC次数。五、安全与管理实践
hadoop),并设置sudo权限;配置Hadoop用户组(如hadoop组包含所有集群节点用户),限制访问权限。core-site.xml中配置hadoop.security.key.provider.path),保护敏感数据;设置HDFS访问控制列表(ACL),限制用户对目录的读写权限。/usr/local/hadoop/logs/hadoop-*-namenode-*.log),及时排查故障;制定备份策略(如备份NameNode元数据至异地),定期测试故障恢复流程。