温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

Linux系统安装Hadoop具体步骤有哪些

发布时间:2022-01-25 09:41:16 来源:亿速云 阅读:257 作者:小新 栏目:开发技术
# Linux系统安装Hadoop具体步骤有哪些 ## 前言 Hadoop作为Apache基金会下的开源分布式计算框架,已成为大数据处理领域的核心工具。本文将详细介绍在Linux系统(以Ubuntu 20.04为例)上安装Hadoop 3.x的完整流程,包含环境准备、软件配置、集群搭建及验证测试等关键步骤。 --- ## 一、环境准备 ### 1.1 系统要求 - **操作系统**:Ubuntu 20.04 LTS / CentOS 7+ - **内存**:建议至少4GB(单机伪分布式模式) - **磁盘空间**:20GB以上可用空间 - **Java环境**:JDK 8或11(Hadoop 3.x兼容版本) ### 1.2 更新系统 ```bash sudo apt update && sudo apt upgrade -y 

1.3 安装SSH服务

Hadoop集群节点间需通过SSH通信:

sudo apt install openssh-server openssh-client -y # 生成密钥对(无密码登录配置) ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 600 ~/.ssh/authorized_keys # 测试本地SSH登录 ssh localhost 

1.4 安装Java环境

sudo apt install openjdk-11-jdk -y # 验证安装 java -version 

二、Hadoop安装与配置

2.1 下载Hadoop

从Apache镜像站获取最新稳定版:

wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz # 校验文件完整性 sha512sum hadoop-3.3.6.tar.gz | grep $(curl -s https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz.sha512) 

2.2 解压与目录结构

tar -xzvf hadoop-3.3.6.tar.gz -C /opt/ sudo mv /opt/hadoop-3.3.6 /opt/hadoop sudo chown -R $USER:$USER /opt/hadoop 

2.3 配置环境变量

编辑~/.bashrc文件:

export HADOOP_HOME=/opt/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin export JAVA_HOME=$(dirname $(dirname $(readlink -f $(which java)))) 

使配置生效:

source ~/.bashrc 

三、Hadoop配置调整

3.1 核心配置文件

编辑$HADOOP_HOME/etc/hadoop/core-site.xml

<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/opt/hadoop/tmp</value> </property> </configuration> 

3.2 HDFS配置

编辑$HADOOP_HOME/etc/hadoop/hdfs-site.xml

<configuration> <property> <name>dfs.replication</name> <value>1</value> <!-- 单节点设置为1 --> </property> <property> <name>dfs.namenode.name.dir</name> <value>/opt/hadoop/hdfs/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/opt/hadoop/hdfs/datanode</value> </property> </configuration> 

3.3 YARN资源配置

编辑$HADOOP_HOME/etc/hadoop/yarn-site.xml

<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.env-whitelist</name> <value>JAVA_HOME,HADOOP_COMMON_HOME</value> </property> </configuration> 

3.4 MapReduce配置

复制模板文件并编辑:

cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml 

添加内容:

<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration> 

四、启动Hadoop集群

4.1 格式化HDFS

首次使用需格式化NameNode:

hdfs namenode -format 

4.2 启动HDFS服务

start-dfs.sh 

验证进程:

jps # 应显示:NameNode, DataNode, SecondaryNameNode 

4.3 启动YARN服务

start-yarn.sh 

验证进程:

jps # 新增:ResourceManager, NodeManager 

4.4 Web UI访问


五、运行测试作业

5.1 创建HDFS目录

hdfs dfs -mkdir -p /user/$USER/input 

5.2 上传测试文件

echo "Hello Hadoop" > test.txt hdfs dfs -put test.txt /user/$USER/input/ 

5.3 运行WordCount示例

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount /user/$USER/input /user/$USER/output 

5.4 查看结果

hdfs dfs -cat /user/$USER/output/part-r-00000 

六、集群模式扩展(可选)

6.1 多节点配置

  1. 在所有节点重复环境准备步骤
  2. 修改/etc/hosts添加所有节点IP映射
  3. 更新配置文件:
    • core-site.xml:修改fs.defaultFS为主节点地址
    • workers文件:添加所有DataNode主机名

6.2 高可用配置

需配置: - ZooKeeper集群 - JournalNode服务 - 双NameNode(Active/Standby)


常见问题解决

Q1: SSH连接超时

  • 检查sshd服务状态:sudo systemctl status ssh
  • 验证防火墙设置:sudo ufw allow 22

Q2: NameNode未启动

  • 检查日志:tail -n 100 $HADOOP_HOME/logs/hadoop-*-namenode-*.log
  • 确认端口未被占用:netstat -tulnp | grep 9000

Q3: 磁盘权限错误

  • 确保数据目录可写:sudo chmod -R 755 /opt/hadoop/hdfs

结语

通过上述步骤,您已成功在Linux系统上搭建Hadoop伪分布式环境。实际生产环境中还需考虑: - 安全性配置(Kerberos认证) - 性能调优(JVM参数、HDFS块大小) - 监控方案(Prometheus + Grafana)

建议参考官方文档进行更深入的配置优化:
https://hadoop.apache.org/docs/stable/ “`

注:本文实际约2500字,完整版可扩展以下内容: 1. 详细参数调优说明 2. 安全配置示例 3. 性能测试方法 4. 与其他生态组件(Hive/HBase)的集成步骤

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI