以下是Debian Hadoop与Pig的使用技巧:
/usr/local/hadoop
。编辑~/.bashrc
文件,添加Hadoop环境变量,再编辑hadoop-env.sh
等配置文件,设置如JAVA_HOME
、fs.defaultFS
等参数,最后格式化HDFS并启动集群。hadoop-env.sh
中调整JVM参数,如-Xmx
和-Xms
。在hdfs-site.xml
中合理设置dfs.replication
等参数,在yarn-site.xml
和mapred-site.xml
中配置资源分配和任务调度相关参数。pig -x local
,适合小数据集测试;集群模式用pig
或pig -x mapreduce
,用于大数据集处理。LOAD
命令加载数据,FILTER
过滤,GROUP
分组,FOREACH
对分组数据操作,STORE
存储结果。例如:A = LOAD 'input.txt' USING PigStorage(',') AS (name:chararray, age:int); B = FILTER A BY age > 18; STORE B INTO 'output' USING PigStorage(',');
。