- 注:压缩格式有两种:
-
Gzip 优点:
- 压缩解压速度快 , 压缩率高 , hadoop本身支持
- 处理压缩文件时方便 , 和处理文本一样
- 大部分linux 系统自带 Gzip 命令 , 使用方便
-
Snappy优点:
高压缩解压速度 , 压缩率还可以
-
学习网址
使用Parquet output注意事项:-
kettle8或以上版本,建议使用kettle9因为已经测试过(kettle7中未找到Parquet output);
-
本地需要有hadoop的环境;
-
没有hadoop环境会报如下错:
-
java.io.FileNotFoundException:HADOOP_HOME and hadoop.home.dir are unset. -see https://wiki.apache.org/hadoop/WindowsProblems
-
问题原因:
- 其原因是需要在windows本地搭建Hadoop环境,下载winutils文件,将下载文件中hadoop.dll放到C:WindowsSystem32下
-
解决办法:
-
下载hadoop
-
解压Hadoop到本地目录:
-
配置环境变量:
(1)新建HADOOP_HOME环境变量:
HADOOP_HOME的值为解压的hadoop-2.7.6的路径
(2)添加Path:
Path新增: %HADOOP_HOME%bin -
修改配置文件:在hadoop-2.7.6etchadoop目录下
(1)修改hadoop-env.cmd,改为自己本机的设置jdk目录
set JAVA_HOME=C:Program FilesJavajdk1.8.0_221 -
下载winutils的windows版本:
github.com/steveloughran/winutils -
hadoop.dll拷贝到C:WindowsSystem32目录下
参考网址
-
-
-
-
-
Folder/File name中的**${Internal.Entry.Current.Directory}**表示在当前目录下面;
-
Optinos中的Specify date time format如果设置日期格式年月日,会在输出的parquet文件中加上日期,例如:没有加日期:test3.parquet,加日期:test32022-05-09.parquet;



