HDFS透明加密(Transparent Data Encryption, TDE)是Hadoop原生支持的高级加密功能,通过**加密区域(Encryption Zones)**实现对指定目录下数据的自动加密(写入时加密、读取时解密),无需修改应用程序代码,是生产环境最常用的加密方案。
hdfs用户对密钥库路径有读写权限。修改Hadoop核心配置文件(core-site.xml和hdfs-site.xml),添加以下关键配置:
core-site.xml
<property> <name>hadoop.security.encryption.key.provider.path</name> <value>hdfs:///etc/hadoop/conf/encryption.keystore.jceks</value> <!-- 密钥库路径(JCEKS格式) --> </property> <property> <name>hadoop.security.encryption.region.size</name> <value>10485760</value> <!-- 加密区域块大小(10MB,默认值) --> </property> hdfs-site.xml
<property> <name>dfs.encrypt.data.transfer</name> <value>true</value> <!-- 启用数据传输加密(可选,增强传输层安全) --> </property> <property> <name>dfs.encrypt.data.transfer.algorithm</name> <value>AES_CBC</value> <!-- 传输加密算法(默认AES_CBC) --> </property> <property> <name>dfs.encrypt.data.transfer.key.length</name> <value>256</value> <!-- 密钥长度(256位,符合合规要求) --> </property> <property> <name>dfs.encryption.zone.enabled</name> <value>true</value> <!-- 启用加密区域功能 --> </property> 配置完成后,重启HDFS集群使参数生效:
sudo systemctl restart hadoop-hdfs-namenode sudo systemctl restart hadoop-hdfs-datanode 加密密钥是TDE的核心,需通过hdfs crypto命令创建并存储在安全位置(如HDFS的/etc/hadoop/conf/目录):
# 创建JCEKS格式密钥库(若不存在) keytool -importkeystore -srckeystore /path/to/keystore.jceks -destkeystore /path/to/keystore.jceks -deststoretype jceks # 生成AES-256加密密钥(名称需唯一,如"myZoneKey") hdfs crypto -createKey -keyName myZoneKey -providerURI hdfs:///etc/hadoop/conf/encryption.keystore.jceks 注意:密钥库密码需妥善保管(如通过KMS或离线介质存储),丢失将无法恢复加密数据。
选择需要加密的HDFS目录(如/user/hdfs/encrypted_data),通过hdfs crypto命令创建加密区域并关联密钥:
# 创建加密目录 hdfs dfs -mkdir -p /user/hdfs/encrypted_data # 将目录标记为加密区域,并关联密钥"myZoneKey" hdfs crypto -createZone -keyName myZoneKey -path /user/hdfs/encrypted_data 将现有明文数据移动至加密区域,移动后数据会自动加密(存储为密文):
hdfs dfs -mv /user/hdfs/plain_data/* /user/hdfs/encrypted_data/ hdfs dfs -put /local/plain_file.txt /user/hdfs/encrypted_data/ hdfs dfs -cat /user/hdfs/encrypted_data/plain_file.txt hdfs crypto -listZones 若不想使用透明加密,可通过配置HDFS客户端,在客户端本地完成数据加密后再写入HDFS,读取时由客户端解密。适用于需要端到端加密的场景(如数据离开客户端后无需HDFS解密)。
修改客户端core-site.xml文件,添加以下配置:
<property> <name>dfs.encrypt.data.transfer</name> <value>true</value> <!-- 启用客户端传输加密 --> </property> <property> <name>dfs.encryption.key.provider.path</name> <value>/local/path/to/client_keystore.jceks</value> <!-- 客户端本地密钥库路径 --> </property> 客户端写入数据时,会自动加密;读取时自动解密,无需修改HDFS集群配置。
若HDFS原生加密无法满足需求(如需要文件系统级加密),可使用第三方工具(如EncFS、eCryptfs)实现数据加密。这类工具通过挂载加密目录的方式,将HDFS目录映射为本地加密目录,数据在写入本地目录时加密,读取时解密。
sudo apt-get install encfs # Debian/Ubuntu sudo yum install encfs # CentOS/RHEL mkdir /local/encrypted_hdfs /local/decrypted_hdfs encfs /local/encrypted_hdfs /local/decrypted_hdfs /local/decrypted_hdfs(自动加密并同步至HDFS);/local/decrypted_hdfs读取数据(自动解密)。dfs.encrypt.data.transfer参数)。