Hive中的序列化和反序列化

3.1． SerDe是什么
SerDe是Serializer、Deserializer的简称，目的是用于序列化和反序列化。序列化是对象转化为字节码的过程；而反序列化是字节码转换为对象的过程。
Hive使用SerDe（和FileFormat）读取和写入行对象。

将文件数据映射到表上 --反序列化
#百度百科解释-->序列化 (Serialization)
#是将对象的状态信息转换为可以存储或传输的形式的过程。
#在序列化期间，对象将其当前状态写入到临时或持久性存储区。.
#以后，可以通过从存储区中读取或反序列化对象的状态，重新创建该对象。
将表上的数据写入文件 --序列化

需要注意的是，“key”部分在读取时会被忽略，而在写入时key始终是常数。基本上行对象存储在“value”中。
可以通过desc formatted tablename查看表的相关SerDe信息。默认如下：

3.2． Hive读写文件流程
Hive读取文件机制：首先调用InputFormat（默认TextInputFormat），返回一条一条kv键值对记录（默认是一行对应一条记录）。然后调用SerDe（默认LazySimpleSerDe）的Deserializer，将一条记录中的value根据分隔符切分为各个字段。
Hive写文件机制：将Row写入文件时，首先调用SerDe（默认LazySimpleSerDe）的Serializer将对象转换成字节序列，然后调用OutputFormat将数据写入HDFS文件中。

3.3． SerDe相关语法
在Hive的建表语句中，和SerDe相关的语法为：

其中ROW FORMAT是语法关键字，DELIMITED和SERDE二选其一。
如果使用delimited表示使用默认的LazySimpleSerDe类来处理数据。如果数据文件格式比较特殊可以使用ROW FORMAT SERDE serde_name指定其他的Serde类来处理数据,甚至支持用户自定义SerDe类。

Hive中的序列化和反序列化

大数据系统相关栏目本月热门文章