栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

kettle视频教程(kettle详细使用教程)

kettle视频教程(kettle详细使用教程)

一、Kettle简介

首先,学习Kettle前先了解一下ETL的概念;ETL是取Extract-Transform-Load的第一个首字母拼成,即指数据抽取、转换和装载的过程,日常工作上,我们经常会遇到各种数据的处理,转换,迁移,使用ETL工具就可以帮助我们解决这些数据的处理,所以了解并掌握一种ETL工具的使用是很必要的。

Kettle是一款国外开源的ETL工具,纯JAVA编写,可以在Windows、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。(题外话:当然现在有各种基于Kettle二开的版本,效率啥的都有提升,本文不涉及那些)

Kettle中文名称是水壶,Kettle的开发者希望把各种数据放在一个水壶里,然后以一种特定的格式流出,用水壶来形容真的很合适。

还有三个概念需要掌握,Kettle有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制(我个人的理解就是如果把一件工作当做是做一台车的话,transformation就是轮胎,引擎,座椅等各种组成元件是怎么做成的具体流程,而job就是怎么这些元件怎么拼起来的流程)。

Spoon是构建ETL Jobs和Transformations的工具,Spoon以拖拽的方式化设计,能够通过spoon调用专用的数据集成引擎或者集群,简单来说就是让你能够图形化可视化去操作那些流程。

一开始先了解这些基础概念就行了,不然说太多晕乎乎的,反正我自己是这样。

二、Kettle下载

下载网址:Pentaho from Hitachi Vantara - Browse Files at SourceForge.net

​​​​​

目前最新版本已更新到9.2,选择你需要的版本下载即可。

我下载的是最新版,解压之后的目录结构如下:

classes:生命周期监听、注册表拓展、日志的配置文件

Data Integration.app:数据集成应用

Data Service JDBC Driver: JDBC驱动程序的数据服务

docs:文档

launcher:Kettle的启动配置

lib:支持库jar包

libswt:Kettle图形库jar

plugins:插件

pwd:kettle集群配置文件

samples:自带例子

simple-jndi:jndi连接配置

system:系统目录

ui:软件界面

在linux系统运行点击spoon.sh,在windows系统运行点击spoon.bat文件。

 

 三、Kettle部署 1、安装JDK

从Kettle的简介可以知道Kettle是纯Java语言编写的软件,所以该软件的运行需要Java运行环境的依赖,所以第一步需要先安装JDK,先把运行环境装好。(如已经安装可忽略)

安装过程双击一直下一步即可,这里不详细说明。

2、配置环境变量

安装完jdk后,配置环境变量,值分别为jdk和kettlle的安装路径,添加完成后Path里也添加一下这两个变量,如下图所示。

配置完成后,双击Spoon.bat,能正常打开就说明环境配置正确。(第一次打开比较久,耐心等下即可)

 

 打开软件欢迎界面,到这一步就是已经部署好了软件了。

 四、Kettle界面简介

Kettle界面主要由这四个方面组成,分别是工具栏,工具图标,树形列表和工作区组成,这里主要知道树形列表,如果你点击转换,那么核心对象里显示的就是转换的一些相关的方法啥的,如果你点击作业也同样对应相关的内容,通过拖拽的方式将左边的方法拉到工作区,后面内容会涉及,有个大概印象就行。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/772262.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号