2021SC@SDUSC
目录
一、Pig是什么?
二、Pig的特点
三、Pig安装部署
四、组内分工
一、Pig是什么?
Pig 是Apache平台下的一个免费开源项目,是MapReduce的一个抽象。它是一个工具,用于分析较大的数据集,并将其表示为数据流。常与Hadoop一起使用,可以使用Pig在Hadoop中执行所有的数据处理操作。
Pig提供的一种SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。
二、Pig的特点
-
丰富的运算符集 - 它提供了许多运算符提供各种操作。
-
易于编程 - Pig Latin与SQL类似,是SQL-LIKE。
-
优化 执行- Apache Pig中的任务自动优化其执行。
-
可扩展性 - 用户可以通过已有操作开发自己的功能来实现。
-
用户定义函数 - Pig提供了在其他编程语言(如Java)中创建用户定义函数的功能,并且可以调用或嵌入到Pig脚本中。
-
处理各种数据 - Apache Pig分析各种数据,将结果存储在HDFS中。
丰富的运算符集 - 它提供了许多运算符提供各种操作。
易于编程 - Pig Latin与SQL类似,是SQL-LIKE。
优化 执行- Apache Pig中的任务自动优化其执行。
可扩展性 - 用户可以通过已有操作开发自己的功能来实现。
用户定义函数 - Pig提供了在其他编程语言(如Java)中创建用户定义函数的功能,并且可以调用或嵌入到Pig脚本中。
处理各种数据 - Apache Pig分析各种数据,将结果存储在HDFS中。
三、Pig安装部署
Pig开源库网址:https://pig.apache.org/
-
1.下载Apache Pig0.17
-
2.解压
$ tar zxvf pig-0.17.tar.gz
-
3.进入配置Pig文件
$ vim /etc/profile
-
4.配置Pig环境
export PIG_HOME = /home/Hadoop/Pig export PATH = PATH:/home/Hadoop/pig/bin export PIG_CLASSPATH = $HADOOP_HOME/conf
-
5.检验安装
$ pig –version
四、组内分工
Apache Pig 架构
Parser(解析器)
最初,Pig脚本由解析器处理,它检查脚本的语法,类型检查和其他杂项检查。解析器的输出将是DAG(有向无环图),它表示Pig Latin语句和逻辑运算符。在DAG中,脚本的逻辑运算符表示为节点,数据流表示为边。
Optimizer(优化器)
逻辑计划(DAG)传递到逻辑优化器,逻辑优化器执行逻辑优化,例如投影和下推。
Compiler(编译器)
编译器将优化的逻辑计划编译为一系列MapReduce作业。
Execution engine(执行引擎)
最后,MapReduce作业以排序顺序提交到Hadoop。这些MapReduce作业在Hadoop上执行,产生所需的结果。
我主要负责backend(后端)中的Execution engine库的代码分析



