Hive 分区表增加字段并赋值

前言
背景
解决方案
- 具体操作
- 注意事项
总结

前言

最近工作上需要用到大数据平台，之前没用过大数据相关的工具，所以踩了不少坑。今天就把在分区表中添加字段的坑分享出来，避免再次踩坑。

背景

今天接到一个需求，在原有的 hive 分区表中需要添加一个字段，并且原来的数据中这个字段还是需要赋值。后续这个值是由 ETL 任务去拉取的，所以只需要解决好原来的数据。

解决方案

为了数据不丢失，先把原表备份，备份表名叫 xxx_temp(备份表这里不给出语句)。
备份完了之后，开始把原表结算复制一份，然后添加新加的字段，复制表名叫 xxx_temp1。
在把原表的数据复制到 xxx_temp1 的同时，把新加的字段也赋值上去。
把原表的数据 truncate 掉，然后添加新字段(这里为了尝试，先用了另外一个备份表 xxx_temp2)。
把复制表(xxx_temp1)中的数据 insert 到原表里面，任务完成。

具体操作

代码如下：

-- 创建表，这里需要用 like，不能用 as，如果用 as 分区表的分区是不会复制到新表上
create table 库名.xxx_temp1 like 库名.xxx; 
-- 新增表字段
alter table 库名.xxx_temp1 add columns (xxx_fff string COMMENT "ccc");
-- 如果上面用了 like，里面的数据是不会到新表，需要执行下面的语句，把数据拉到新表
set hive.exec.dynamic.partition.mode=nonstrict;
insert overwrite table 库名.xxx_temp1 partition(inc_day) select *, inc_day from 库名.xxx;
-- 查看数据是否拉到新表
select * from 库名.xxx_temp1 limit 10;
select count(*) from 库名.xxx_temp1 limit 10;

-- 删除 xxx_temp2
drop table 库名.xxx_temp2;
-- 创建 xxx_temp2
create table 库名.xxx_temp2 like 库名.xxx;
-- 赋值
set hive.exec.dynamic.partition.mode=nonstrict;
insert into table 库名.xxx_temp2 partition(inc_day) select * from 库名.xxx;
-- 删除表 xxx_temp2 中数据
truncate table库名.xxx_temp2;
-- 特别注意这里，分区表需要添加两次，只添加一次的话，到时候会没数据
alter table 库名.xxx_temp2 add columns (xxx_fff string COMMENT "ccc");
alter table 库名.xxx_temp2 partition(inc_day) add columns (xxx_fff string COMMENT "ccc");
-- 插入备份表的数据
set hive.exec.dynamic.partition.mode=nonstrict;
insert overwrite table 库名.xxx_temp2 partition(inc_day) select * from 库名.xxx_temp1;
-- 查询是否有数据和数据是否正确
select * from 库名.xxx_temp2 limit 10;

注意事项

这里有两点需要注意的事项：

如果分区表里没有分区，或者说没有数据时，添加字段只需要添加一次就行了，也就是执行alter table 库名.xxx_temp1 add columns (xxx_fff string COMMENT "ccc");这个语句就行了。
如果分区表里有分区，前提是分区里面没有数据，添加字段时就需要添加两次。如果不是，那从另一个表复制数据过来时，这个新增的字段是不会有值的。
注意：这里是因为要处理原来存在分区的数据，所以第二次添加是需要在之前的分区也添加新增的字段才会生效。
```
alter table 库名.xxx_temp2 add columns (xxx_fff string COMMENT "ccc");
alter table 库名.xxx_temp2 partition(inc_day) add columns (xxx_fff string COMMENT "ccc");
```

总结

这是在用大数据工具中的踩坑经历，希望能对大家有帮助，共同学习。

Hive 分区表增加字段并赋值

大数据系统相关栏目本月热门文章