hive怎么建立表存储格式

发布时间：2021-07-29 19:32:19 来源：亿速云阅读：248 作者：chen 栏目：云计算

# Hive怎么建立表存储格式 ## 目录 1. [Hive表存储格式概述](#hive表存储格式概述) 2. [常见的存储格式对比](#常见的存储格式对比) - [TextFile](#textfile) - [SequenceFile](#sequencefile) - [RCFile](#rcfile) - [ORCFile](#orcfile) - [Parquet](#parquet) 3. [创建不同存储格式表的语法](#创建不同存储格式表的语法) - [TextFile格式](#textfile格式) - [SequenceFile格式](#sequencefile格式) - [RCFile格式](#rcfile格式) - [ORCFile格式](#orcfile格式) - [Parquet格式](#parquet格式) 4. [存储格式选择建议](#存储格式选择建议) 5. [性能优化技巧](#性能优化技巧) 6. [实际应用案例](#实际应用案例) 7. [常见问题解答](#常见问题解答) ## Hive表存储格式概述 Hive作为Hadoop生态系统中的数据仓库工具，支持多种数据存储格式。存储格式的选择直接影响查询性能、存储空间利用率和数据读写效率。Hive的表存储格式决定了数据在HDFS上的物理组织方式，不同的格式有不同的特点和适用场景。 在Hive中，存储格式主要通过`STORED AS`子句指定，同时可以结合`ROW FORMAT`、`SERDE`等参数进行更精细的控制。选择合适的存储格式可以显著提升Hive作业的执行效率，有时性能差异可达数倍甚至数十倍。 ## 常见的存储格式对比 ### TextFile **特点**： - 默认存储格式 - 纯文本形式存储 - 可读性强，可直接查看内容 - 不支持块压缩（只能文件级别压缩） **适用场景**： - 数据交换 - 临时数据存储 - 需要人工查看原始数据的场景 ### SequenceFile **特点**： - 二进制键值对存储格式 - 支持块压缩 - 可分割（splitable） - 比TextFile更紧凑 **适用场景**： - 需要中间存储的MapReduce作业 - 小文件合并 ### RCFile **特点**： - 行列混合存储（Record Columnar File） - 先按行分组，再按列存储 - 压缩比高 - 支持向量化查询 **适用场景**： - 需要列式存储但Hive版本较旧的场景 - 查询只涉及部分列的情况 ### ORCFile **特点**： - 优化的行列式存储（Optimized RC） - 支持ACID操作 - 内置轻量级索引（min/max/bloom filter） - 压缩比极高 - 支持谓词下推 **适用场景**： - Hive主要推荐格式 - 大数据量分析场景 - 需要事务支持的场景 ### Parquet **特点**： - 列式存储格式 - 特别适合嵌套数据结构 - 跨生态支持（Spark/Flink等） - 优秀的压缩性能 **适用场景**： - 跨平台数据共享 - 嵌套数据结构处理 - Spark等生态系统中使用 ## 创建不同存储格式表的语法 ### TextFile格式 ```sql CREATE TABLE textfile_table ( id INT, name STRING, value DOUBLE ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TEXTFILE;

SequenceFile格式

CREATE TABLE sequencefile_table ( id INT, name STRING, value DOUBLE ) STORED AS SEQUENCEFILE;

RCFile格式

CREATE TABLE rcfile_table ( id INT, name STRING, value DOUBLE ) STORED AS RCFILE;

ORCFile格式

基础创建：

CREATE TABLE orc_table ( id INT, name STRING, value DOUBLE ) STORED AS ORC;

带压缩设置：

CREATE TABLE orc_compressed_table ( id INT, name STRING, value DOUBLE ) STORED AS ORC TBLPROPERTIES ("orc.compress"="SNAPPY");

Parquet格式

基础创建：

CREATE TABLE parquet_table ( id INT, name STRING, value DOUBLE ) STORED AS PARQUET;

带压缩设置：

CREATE TABLE parquet_compressed_table ( id INT, name STRING, value DOUBLE ) STORED AS PARQUET TBLPROPERTIES ("parquet.compression"="GZIP");

存储格式选择建议

默认选择：新项目优先考虑ORC或Parquet
兼容性需求：跨平台使用优先选择Parquet
更新频繁：需要ACID支持选择ORC
嵌套数据：复杂JSON结构选择Parquet
临时数据：中间结果可使用TextFile或SequenceFile
压缩需求：ORC和Parquet都支持多种压缩算法

性能优化技巧

压缩算法选择：
- ZLIB：高压缩比，但CPU开销大
- SNAPPY：平衡选择，推荐默认使用
- LZO：需要额外安装，但性能不错

ORC特定优化：

SET hive.exec.orc.default.compress=ZLIB; SET hive.exec.orc.default.block.size=268435456; -- 256MB SET hive.optimize.index.filter=true; -- 启用索引过滤

Parquet特定优化：

SET parquet.block.size=268435456; -- 256MB块大小 SET parquet.compression=SNAPPY; SET hive.parquet.filter.pushdown=true;

通用优化：
- 合理设置文件大小（通常256MB-1GB）
- 对常用查询列建立合适的索引
- 分区和分桶结合存储格式使用

实际应用案例

电商日志分析场景

-- 创建ORC格式的分区表 CREATE TABLE user_behavior ( user_id BIGINT, item_id BIGINT, behavior_type STRING, timestamp BIGINT ) PARTITIONED BY (dt STRING) STORED AS ORC TBLPROPERTIES ("orc.compress"="SNAPPY"); -- 添加分区 ALTER TABLE user_behavior ADD PARTITION (dt='2023-01-01');

物联网传感器数据

-- 创建Parquet格式表处理嵌套数据 CREATE TABLE sensor_data ( device_id STRING, location STRUCT<lat:DOUBLE, lon:DOUBLE>, readings ARRAY<STRUCT<time:TIMESTAMP, value:DOUBLE>>, metadata MAP<STRING,STRING> ) STORED AS PARQUET;

常见问题解答

Q1: 如何查看现有表的存储格式？

DESCRIBE FORMATTED table_name; -- 在输出结果中查找"Storage DescParams"部分

Q2: 能否修改已有表的存储格式？ 可以，但需要通过CTAS（Create Table As Select）方式：

CREATE TABLE new_orc_table STORED AS ORC AS SELECT * FROM old_table;

Q3: ORC和Parquet的主要区别是什么？ - ORC是Hive原生格式，对Hive集成更好 - Parquet更适合嵌套数据和跨平台场景 - ORC支持ACID，Parquet不支持

Q4: 存储格式会影响Hive SQL语法吗？ 不会，所有格式都支持相同的SQL语法，只是底层实现效率不同

Q5: 小文件问题如何解决？ - 使用ORC/Parquet格式 - 配置合适的文件大小 - 定期执行合并操作：

 SET hive.merge.smallfiles.avgsize=128000000; SET hive.merge.size.per.task=256000000; SET hive.exec.dynamic.partition.mode=nonstrict;

通过合理选择和使用Hive表存储格式，可以显著提升大数据处理效率。建议在实际项目中根据具体场景进行基准测试，选择最适合的存储方案。 “`

向AI问一下细节