栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Java

Kettle表输入到Parquet表输出

Java 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Kettle表输入到Parquet表输出

Kettle表输入到Parquet表输出 图示

local_oracle_table_input

table_parquet_output


  • 注:压缩格式有两种:
    1. Gzip 优点:

      1. 压缩解压速度快 , 压缩率高 , hadoop本身支持
      2. 处理压缩文件时方便 , 和处理文本一样
      3. 大部分linux 系统自带 Gzip 命令 , 使用方便
    2. Snappy优点:
        高压缩解压速度 , 压缩率还可以

学习网址

使用Parquet output注意事项:
  1. kettle8或以上版本,建议使用kettle9因为已经测试过(kettle7中未找到Parquet output);

  2. 本地需要有hadoop的环境;

    • 没有hadoop环境会报如下错:

      1. java.io.FileNotFoundException:HADOOP_HOME and hadoop.home.dir are unset. -see https://wiki.apache.org/hadoop/WindowsProblems

        • 问题原因:

          1. 其原因是需要在windows本地搭建Hadoop环境,下载winutils文件,将下载文件中hadoop.dll放到C:WindowsSystem32下
        • 解决办法:

          1. 下载hadoop

          2. 解压Hadoop到本地目录:

          3. 配置环境变量:
            (1)新建HADOOP_HOME环境变量:
            HADOOP_HOME的值为解压的hadoop-2.7.6的路径
            (2)添加Path:
            Path新增: %HADOOP_HOME%bin

          4. 修改配置文件:在hadoop-2.7.6etchadoop目录下
            (1)修改hadoop-env.cmd,改为自己本机的设置jdk目录
            set JAVA_HOME=C:Program FilesJavajdk1.8.0_221

          5. 下载winutils的windows版本:
            github.com/steveloughran/winutils

          6. hadoop.dll拷贝到C:WindowsSystem32目录下

            参考网址

  3. Folder/File name中的**${Internal.Entry.Current.Directory}**表示在当前目录下面;

  4. Optinos中的Specify date time format如果设置日期格式年月日,会在输出的parquet文件中加上日期,例如:没有加日期:test3.parquet,加日期:test32022-05-09.parquet;

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/874110.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号