2018-09-03期 Hive 分区表
admin
2023-01-31 11:07:11
0

一、分区表概述

分区表也是内部表,创建表时可以同时为表创建一个或多个分区,这样我们在加载数据时为其指定具体的分区,查询数据时可以指定具体的分区从而提高效率,分区可以理解为表的一个特殊的列。关键字是partitioned。

分区表实际上是将表文件分成多个有标记的小文件方便查询。

二、创建分区表

这里我们将oracle用户scott下的emp表导出的emp.csv文件在Hive中创建分区表存放,按照部门编号进行分区,emp表的字段信息值如下:

empno, ename, job, mgr, hiredate, salary, comm, deptno

7499, ALLEN, SALESMAN, 7698, 1981/2/20, 1600, 300, 30

hive> create table part_emp(

   > empno int,

   > ename string,

   > job string,

   > mgr int,

   > hiredate string,

   > salary float,

   > comm float

   > )

   > partitioned by (deptno int)

   > row format delimited fields terminated by ',';

OK

Time taken: 0.061 seconds

查看分区表,其中# Partition Information为分区信息,有两个分区year和city

hive> desc extended part_emp;

OK

empno                   int                     None                

ename                   string                  None                

job                     string                  None                

mgr                     int                     None                

hiredate                string                  None                

salary                  float                   None                

comm                    float                   None                

deptno                  int                     None                

               

# Partition Information          

# col_name              data_type               comment            

               

deptno                  int                     None                         

     

三、分区表插入数据          

1、通过load命令加载数据

第一次分区信息为deptno=10

hive> load data local inpath  '/root/emp.csv_10' into table part_emp partition(deptno=10);

Copying data from file:/root/emp.csv_10

Copying file: file:/root/emp.csv_10

Loading data to table default.part_emp partition (deptno=10)

[Warning] could not update stats.

OK

Time taken: 2.267 seconds

第二次分区信息为deptno=20

hive>  load data local inpath  '/root/emp.csv_20' into table part_emp partition(deptno=20);

Copying data from file:/root/emp.csv_20

Copying file: file:/root/emp.csv_20

Loading data to table default.part_emp partition (deptno=20)

[Warning] could not update stats.

OK

Time taken: 8.151 seconds

 

第三次分区信息为deptno=30,第三次通过insert的方式加载分区信息

SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]

hive>  load data local inpath  '/root/emp.csv_30' into table part_emp partition(deptno=30);

Copying data from file:/root/emp.csv_30

Copying file: file:/root/emp.csv_30

Loading data to table default.part_emp partition (deptno=30)

[Warning] could not update stats.

OK

Time taken: 7.344 seconds

 

四、根据分区查询,分区很像是一个特殊的列

hive> select * from part_emp where deptno=10;

7782    CLARK   MANAGER 7839    1981/6/9        2450.0  100.0   10

7839    KING    PRESIDENT       NULL    1981/11/17      5000.0  120.0   10

7934    MILLER  CLERK   7782    1982/1/23       1300.0  133.0   10

8129    Abama   MANAGER 7839    1981/6/9        2450.0  122.0   10

8131    Jimy    PRESIDENT       NULL    1981/11/17      5000.0  333.0   10

8136    Goodle  CLERK   7782    1982/1/23       1300.0  421.0   10

 

查看分区表的分区信息

hive> show partitions part_emp;

deptno=10

deptno=20

deptno=30

五、分区表在HDFS上的存储形式

2018-09-03期 Hive 分区表

一个分区对应一个目录

六、观察分区表查询和普通表查询的执行计划

普通表

hive> explain select * from emp where deptno=10;

ABSTRACT SYNTAX TREE:

 (TOK_QUERY (TOK_FROM (TOK_TABREF (TOK_TABNAME emp))) (TOK_INSERT (TOK_DESTINATION (TOK_DIR TOK_TMP_FILE)) (TOK_SELECT (TOK_SELEXPR TOK_ALLCOLREF)) (TOK_WHERE (= (TOK_TABLE_OR_COL deptno) 10))))

STAGE DEPENDENCIES:

 Stage-1 is a root stage

 Stage-0 is a root stage

STAGE PLANS:

 Stage: Stage-1

   Map Reduce

     Alias -> Map Operator Tree:

       emp

         TableScan

           alias: emp

           Filter Operator

             predicate:

                 expr: (deptno = 10)

                 type: boolean

             Select Operator

               expressions:

                     expr: empno

                     type: int

                     expr: ename

                     type: string

                     expr: job

                     type: string

                     expr: mgr

                     type: int

                     expr: hiredate

                     type: string

                     expr: salary

                     type: float

                     expr: comm

                     type: float

                     expr: deptno

                     type: int

               outputColumnNames: _col0, _col1, _col2, _col3, _col4, _col5, _col6, _col7

               File Output Operator

                 compressed: false

                 GlobalTableId: 0

                 table:

                     input format: org.apache.hadoop.mapred.TextInputFormat

                     output format: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat

 Stage: Stage-0

   Fetch Operator

     limit: -1

分区表:

hive> explain select * from part_emp where deptno=10;

ABSTRACT SYNTAX TREE:

 (TOK_QUERY (TOK_FROM (TOK_TABREF (TOK_TABNAME part_emp))) (TOK_INSERT (TOK_DESTINATION (TOK_DIR TOK_TMP_FILE)) (TOK_SELECT (TOK_SELEXPR TOK_ALLCOLREF)) (TOK_WHERE (= (TOK_TABLE_OR_COL deptno) 10))))

STAGE DEPENDENCIES:

 Stage-0 is a root stage

STAGE PLANS:

 Stage: Stage-0

   Fetch Operator

     limit: -1

     Processor Tree:

       TableScan

         alias: part_emp

         Select Operator

           expressions:

                 expr: empno

                 type: int

                 expr: ename

                 type: string

                 expr: job

                 type: string

                 expr: mgr

                 type: int

                 expr: hiredate

                 type: string

                 expr: salary

                 type: float

                 expr: comm

                 type: float

                 expr: deptno

                 type: string

           outputColumnNames: _col0, _col1, _col2, _col3, _col4, _col5, _col6, _col7

           ListSink


相关内容

热门资讯

德国总理:美国正在被伊朗羞辱 德国之声4月27日报道,德国总理默茨在访问一所学校时表示,在当前的持续冲突中,伊朗领导层正试图羞辱美...
理响中国|“长”歌以行,风云激... 光阴如梭,东方潮阔。这里是中国的长三角,世界的长三角。无论过去、现在还是未来,这片土地都因时代而生,...
白宫:特朗普及其国安团队开会讨... 新华社华盛顿4月27日电 美国白宫新闻秘书莱维特27日在记者会上证实,总统特朗普及其国家安全团队当天...
人民日报刊文:日本放开杀伤性武... 日本放开杀伤性武器出口推高地缘冲突风险(国际论坛)常思纯《人民日报》(2026年04月28日 第 0...
医疗保障法草案二审:明确生育保... 满足多样化健康保障需求本报记者 彭 波4月27日,医疗保障法草案二审稿提请十四届全国人大常委会第二十...
天津一景区发生自转旋翼机事故1... 澎湃新闻记者 吕新文中国民用航空华北地区管理局4月22日公布《豪客通航“10•1”天津长芦汉盐旅游区...
卡塔尔埃米尔与美国总统特朗普通... 当地时间24日,卡塔尔埃米尔塔米姆与美国总统特朗普通电话,重点就中东地区局势以及伊朗与美国谈判问题交...
男子30年前被扣押2859克黄... 澎湃新闻记者 王鑫家住辽宁省大连市的潘永嘉近日向澎湃新闻反映称,三十年前,他在大连周水子机场被盖州市...
商务部:取消反制欧盟两家金融机... 中华人民共和国商务部令二〇二六年 第1号鉴于欧盟已取消对中国两家金融机构的制裁措施,现公布《关于取消...
过去24小时共有5艘船只通过霍... 总台记者当地时间24日获悉,过去24小时内,共有5艘船只通过霍尔木兹海峡,其中包括一艘伊朗油轮。(总...