【软件工程实践】Pig项目2-Data目录源码分析-Tuple

2021SC@SDUSC

Data目录文件列表如下

文件很多，我们先了解Pig的数据结构，再进行分析，其中一个很重要的概念是数据模型

相关资料链接：【Pig源码分析】谈谈Pig的数据模型 -数据库-火龙果软件工程

数据模型Schema

Schema为数据所遵从的类型格式，包括两个部分：
field的名称类型

field表示数据块(A field is a piece of data)可理解为数据字段

Schema与Pig Latin的关系

Pig Latin表达式操作的是relation，FILTER、FOREACH、GROUP、SPLIT等关系操作符所操作的relation就是bag，bag为tuple的集合，tuple为有序的field列表集合

因此，Schema是Pig Latin表达式操作的一个单元

用户常用as语句来自定义schema，或是load函数导入schema，比如：

若不指定field的类型，则其默认为bytearray。对未知schema进行操作时，有：

若join/cogroup/cross多关系操作遇到未知schema，则会将其视为null schema，导致返回结果的schema也为null；

若flatten一个empty inner schema的bag（即:bag{}）时，则返回结果的schema为null；

若union时二者relation的schema不一致，则返回结果的schema为null；

若field的schema为null，会将该字段视为bytearray。

为了保证pig脚本运行的有效性，在写UDF时要在outputSchema方法中指定返回结果的schema。

注释：UDF为用户自定义函数（Userdefined function)

数据类型

Pig的基本数据类型与对应的Java类：

复杂数据类型及其对应的Java类：

笔记：这里可以进一步理解Schama，如'hello'、18就是数据块field；有序field的集合是tuple，如（18,1），bag为tuple的集合，如{('hello'),(18,1)},某些操作符所操作的relation就是bag

Tuple源码分析

在Data目录下搜索含有Tuple的文件名：

我们来参照上文提到文章里的内容：

在KEYSET源码中，创建Tuple对象采用工厂+单例设计模式：

private static final TupleFactory TUPLE_FACTORY = TupleFactory.getInstance();
Tuple t = TUPLE_FACTORY.newTuple(s);

笔记：keyset.java位于目录，代码如下

其中，map为java自带的类，用法参照以下博客，我们只需要知道它是用于遍历的就行了

java笔记--Map的用法_Linias的博客-CSDN博客_java map

可以看见新建bag的代码为 new NonSpillableDataBag(m.szie())，新建tuple的代码为前面那两端代码

继续参考前面的博客：

事实上，TupleFactory是个抽象类，实现接口TupleMaker。在方法TupleFactory.getInstance()中，默认情况下返回的是BinSedesTupleFactory对象，同时支持加载用户重写的TupleFactory类（pig.data.tuple.factory.name指定类名、 pig.data.tuple.factory.jar指定类所在的jar）。BinSedesTupleFactory继承于TupleFactory：

在BinSedesTupleFactory的newTuple方法中，返回的是BinSedesTuple对象。BinSedesTuple类继承于DefaultTuple类，在DefaultTuple类中有List

【软件工程实践】Pig项目2-Data目录源码分析-Tuple

Java相关栏目本月热门文章