栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Hive清理分区

Hive清理分区

Hive内部表和外部表

1.内部表没有external 关键字

2.内部表可以不指定 location关键字,当然hivesql执行外部表是也可以不指定,但是一般不这么用,sparksql,执行时不指定会报错

3.内部表删除表时,直接删除元数据以及实际数据,外部表则只会删除元数据,hdfs上保留数据

这一条会衍生一些东西

如果建立临时表,一般使用内部表,这样可以直接删除数据,不至于导致数据多余删除外部表时,再create table ,然后insert overwrite 时,会使数据重复一倍,需要注意,这时候需要再insert overwrite 一次外部表数据是hdfs控制,更加安全

4.由于外部表的路径可以指定,不会跑到默认的/user/hive/warehouse下面去,所以权限更加好控制

如何判断是内部表还是外部表
    进入hive,执行 describe extended tablename 查看表的详细信息。在hive中执行desc formatted tablename;可以查看表的格式和详细的信息在hive中执行,show create table tablename;,此时外部表是 create external table tablename
删除内部表和外部表 内部表

alter table tablename drop partition (date<'2021-01-01');

外部表

    先删除元数据: alter table cmp_gdm.cmp_gdm_fetr_custmz_jf_index_day drop partition (dt<'2021-01-01');

    删除文件,删除文件使用下面的命令,(写相关脚本)

    hdfs dfs -rm -r tablelocation/date=XXXX-XX-XX

参考

https://zhuanlan.zhihu.com/p/143129172

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/719971.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号