栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

大数据学习教程SD版第十四篇【Kettle】

大数据学习教程SD版第十四篇【Kettle】

Kettle 数据ETL工具 PDI

数据处理、转换、迁移 纯Java编写 稳定快

1. Kettle 核心组件
  1. spoon.sh 图形化界面
  2. pan.sh 命令行执行spoon的 transform 和 job
  3. kitchen.sh 命令行调用spoon的 job
  4. carte.sh 轻量级web
2. Kettle 安装

解压 Kettle zip包,即可

双击 spoon.bat 即可打开图形化界面

3. Kettle 初体验

csv -> excel

4. Kettle 核心概念
  1. Kettle 可视化编程

  2. 转换 输入、转换、校验、输出,有步骤组成,最小单位为行

  3. 步骤 控件,输出跳有分发(轮询)和复制两种

  4. 跳 两个步骤之间的连接

  5. 元数据 数据描述

  6. 数据类型

  7. 并行 每个跳并行执行

  8. 作业 工作流控制,封装转换

5. Kettle 转换 5.1 Kettle 常用输入控件
控件名称使用示例
CSV文件输入CSV->Excel
文本文件输入TXT->Excel
Excel输入Excel 2 Sheet ->Excel Sheet
XML输入XML->Excel
JSON输入JSON->Excel
表输入Table->Excel

MySQL的话需要加入MySQL的驱动包在lib下

5.2 Kettle 常用输出控件
控件名称使用示例
Excel输出Table->Excel
文本文件输出Table->TXT
SQL文件输出Table->SQL
表输出Table->Table
表插入/更新Table->Table
表删除Table->Table
5.3 Kettle 常用转换控件
控件名称控件含义
Concat fields字段连接,增加新列
值映射改变原来的值
增加常量&增加序列增加一列数据
字段选择选择字段、改变字段名称和类型
计算器常用聚合函数
字符串剪切、替换、操作针对字符串的函数
排序记录&去除重复记录、唯一行【推荐】对于行的操作
拆分字段一个字段拆分成多个,行操作
列拆封成多行相当于表侧写
行扁平化上面得逆向操作
列转行多行转一行
行转列一行转多行
5.4 Kettle 常用应用控件
控件名称控件含义
替换NULL值null->指定值
写日志将数据流打印到控制台
5.5 Kettle 常用流程控件
控件名称控件含义
Switch-case根据字段不同值,多路输出
过滤记录根据字段值进行过滤,多路输出
空操作啥也不做,常做数据流终点
中止数据流终点,程序调试
5.6 Kettle 常用查询控件
控件名称控件含义
数据库查询左连接,左表是跳中的数据流
流查询两张表字段等值匹配
5.7 Kettle 常用连接控件
控件名称控件含义
合并记录合并两个新旧数据源
记录集连接两张表Join操作
5.8 Kettle 常用统计控件
控件名称控件含义
分组类似于SQL的group by
5.9 Kettle 常用映射控件
控件名称控件含义
映射(子转换)对于子转换做转换
5.10 Kettle 常用脚本控件
控件名称控件作用
执行SQL脚本执行自定义的SQL语句
6. Kettle 作业

可串行执行,一个作业可包含多个作业项

  1. 作业项:作业项之间是步骤流
  2. 作业跳:作业项之间的连接线
    • 无条件执行
    • 上一结果为真
    • 上一结果为假

Kettle 资源库:将作业和转换 信息保存到库,可以远程跨平台使用

7. Kettle 常用参数调整
  1. 调整JVM大小
  2. 调整commit提交记录数
  3. 尽量使用数据库连接池
  4. 尽量使用SQL
  5. 尽量缩小输入数据集
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/699890.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号