ELT平台操作手册KETTLE.docx

上传人:b****8 文档编号:8945718 上传时间:2023-05-16 格式:DOCX 页数:99 大小:2.18MB
下载 相关 举报
ELT平台操作手册KETTLE.docx_第1页
第1页 / 共99页
ELT平台操作手册KETTLE.docx_第2页
第2页 / 共99页
ELT平台操作手册KETTLE.docx_第3页
第3页 / 共99页
ELT平台操作手册KETTLE.docx_第4页
第4页 / 共99页
ELT平台操作手册KETTLE.docx_第5页
第5页 / 共99页
ELT平台操作手册KETTLE.docx_第6页
第6页 / 共99页
ELT平台操作手册KETTLE.docx_第7页
第7页 / 共99页
ELT平台操作手册KETTLE.docx_第8页
第8页 / 共99页
ELT平台操作手册KETTLE.docx_第9页
第9页 / 共99页
ELT平台操作手册KETTLE.docx_第10页
第10页 / 共99页
ELT平台操作手册KETTLE.docx_第11页
第11页 / 共99页
ELT平台操作手册KETTLE.docx_第12页
第12页 / 共99页
ELT平台操作手册KETTLE.docx_第13页
第13页 / 共99页
ELT平台操作手册KETTLE.docx_第14页
第14页 / 共99页
ELT平台操作手册KETTLE.docx_第15页
第15页 / 共99页
ELT平台操作手册KETTLE.docx_第16页
第16页 / 共99页
ELT平台操作手册KETTLE.docx_第17页
第17页 / 共99页
ELT平台操作手册KETTLE.docx_第18页
第18页 / 共99页
ELT平台操作手册KETTLE.docx_第19页
第19页 / 共99页
ELT平台操作手册KETTLE.docx_第20页
第20页 / 共99页
亲,该文档总共99页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

ELT平台操作手册KETTLE.docx

《ELT平台操作手册KETTLE.docx》由会员分享,可在线阅读,更多相关《ELT平台操作手册KETTLE.docx(99页珍藏版)》请在冰点文库上搜索。

ELT平台操作手册KETTLE.docx

ELT平台操作手册KETTLE

 

智能数据比对系统ELT平台操作手册

 

【用户手册】

 

市灵讯通信科技

2011-01-7

第1章系统介绍

1.1系统简介

ETL平台用于数据的抽取、转换、加载,为数据比对提供数据的采集、转换、导入、导出等功能。

第2章系统管理

2.1基本概念

1、数据库连接:

用户自定义的,在转换或作业中使用的数据库连接。

2、转换:

数据抽取、转换、加载流程的封装。

3、作业:

将多个转换或一些任务封装,用于ETL任务的执行。

4、知识库:

固定存储已建立好的连接、转换或作业的位置。

5、数据流:

分输入流和输出流,输入流是离开一个步骤时的行的堆栈,输出流是进入一个步骤时的行的堆栈。

6、节点连接:

连接两个步骤的连线。

2.2主界面介绍

【功能描述】

1、浏览和管理知识库。

2、增加数据库连接。

3、增加转换或作业。

4、导入、导出XML文件。

【操作步骤或操作容】

功能1:

浏览和管理知识库

1、用户进入ETL平台,点击『知识库』页签,可浏览知识库,如下图所示:

2、双击其中一个数据库连接、采集作业或转换,可打开相应的页面,进行查看、运行、修改和删除。

功能2:

增加数据库连接

单击

图标,选择『新建数据库连接』选项,打开如下图所示窗口:

连接类型:

选择数据库类型。

访问方法:

推荐使用JDBC。

连接名称:

用户自定义。

服务器主机:

填写数据库服务器IP地址。

数据库名称:

填写数据库名称。

数据库表空间:

填写数据库的用户数据表空间名称。

索引表空间:

填写数据库的索引表空间名称。

端口号:

填写数据库使用的端口号。

用户名和密码:

登陆数据库的用户名和密码。

功能3:

增加转换或作业

单击

图标,选择『新建转换』或『新建转换』选项。

功能4:

导入、导出XML文件

单击

图标,可将建立好的转换或作业导出为XML文件,存储在本地,也可从本地XML文件导入到知识库。

2.3基本功能

【功能描述】

1、转换管理。

2、作业管理。

3、节点连接类型。

【操作步骤或操作容】

功能1:

转换管理

1、新建或打开一个转换,可看到转换设计页面,如下图:

2、单击主对象树,可将菜单中的转换步骤拖到转换设计页面中。

3、单击

可运行转换。

4、右键单击空白区域,可设置转换的属性。

功能2:

作业管理

1、新建或打开一个作业,可看到作业设计页面,如下图:

2、单击主对象树,可将菜单中的作业步骤拖到作业设计页面中。

3、单击

可运行作业。

4、右键单击空白区域,可设置作业的属性。

功能3:

节点连接类型

1、在一个节点处按住SHIFT拖动鼠标到另一节点可建立节点连接。

2、改变开始复制的数量

有时候多次运行相同的步骤是非常有用的。

例如,执行一个数据库查询三次或者三次以上,这是因为数据库连接通常有一个反应时间,改变步骤运行的次数,可以有效的减少反应时间,提高效率。

要运行一个步骤的多个副本,你只要在图形界面的步骤上点击鼠标右键,选择“改变开始复制的数量…”

3、分发或复制

分发表示所有的行被平均分发到各个目标步骤,复制表示所有行被复制到全部目标步骤。

4、串行或并行

仅用在作业中,默认串行,右键单击作业步骤,选择并行,可并行运行一个作业中的各个分步骤。

5、有连接条件和无条件连接

仅用在作业中,用于控制连接生效的条件,可设置上一步骤运行成功则运行下一步骤,或上一步骤运行失败则运行下一步骤,或无论成功或失败都运行下一步骤,即无条件连接。

如下图:

带平行线表示是并行连接;绿色表示该连接生效(灰色表示失效);勾号表示结果为真运行下一步骤,圆圈表示结果为假运行下一步骤,锁标志表示无条件连接。

第3章转换步骤

3.1文本文件输入

【功能描述】

可通过此步骤读取大量不同的文本文件,可指定读取的文件列表,或者用正则表达式表示的目录列表。

【操作步骤或操作容】

功能1:

文件名称指定

1、指定文件名后,并按“增加”按钮,你可以添加一个文件到“选择文件”中,如下所示:

2、你也可以用指定正则表达式通配符的形式来搜索文件。

正则表达式比简单的用“?

”和“*”通配符更有效。

文件名

正则

选择的文件

/dirA/

.*userdata.*/.txt

所有在/dirA/目录下的并且文件名包含userdata、以txt为后缀的文件。

/dirB/

AAA.*

所有在/dirB/目录下的并且文件名以AAA开头的文件。

/dirC/

[A-Z][0-9].*

所有在/dirC/目录下的并且文件名以字母开头、紧接着一个数字的文件。

功能2:

容指定

1、容标签允许你指定正在读取的文本文件的格式:

2、下面是标签的选项列表:

选项

描述

文件类型

可以是CSV或者Fixedlength(固定长度)。

分隔符

在文本的单行中,一个或多个字符将被用来分隔字段,

比较有代表性的是;或者一个tab制表符。

封闭字符

一些字段能够被一对允许分隔的字符来封闭。

封闭字符

串是可选的。

逃逸字符

如果你的数据中有逃逸字符,就指定逃逸字符(或者逃

逸字符串)。

如果\作为逃逸字符,文本’Notthenine

o\’clocknews.’(’作为封闭字符),将被解析成Not

thenineo’clocknews.

头部/头部行数量

如果你的文本文件有头部行就使用这个。

你可以指定头

部行出现的次数。

尾部/尾部行数量

如果你的文本文件有尾部行就使用这个。

你可以指定尾

部行出现的次数。

包装行/包装行数量

利用这个来处理被某些页限制包装的数据行。

注:

头部

和尾部从来不考虑被包装。

分页布局/每页行数/文档头部行

在行打印机上打印的时候,你可以用这个选项作为最终

的手段。

用头部行的数量来跳过介绍性的文本,用每页

的行数来定位数据行。

压缩

如果你的文件是ZIP文件或者GZIP归档文件,就启用

这个。

注:

此刻归档文件中仅仅第一个文件被读取。

没有空行

不往下一步发送空行。

输出包含文件名

如果你想文件名作为输出的一部分,可以启用这个。

文件名字段名称

包含文件名的字段名称。

输出行数

如果你想行数作为输出的一部分,可以启用这个。

行数字段名称

包含行数的字段名称。

根据文件获取行数

允许每个文件重置的行数。

格式

可以是DOS、UNIX或者混合模式。

UNIX行终止可以是

回车,DOS中可以是回车或者换行。

如果你选择混合模

式,将不会验证。

编码方式

指定文本文件编码方式。

如果不设置就使用系统默认的

编码方式。

如果想用Unicode,可以指定UTF-8或者

UTF-16。

第一次使用的时候,Spoon将搜索系统,寻找

可用的编码。

记录数量限制

设置读取记录的行数。

0代表读取所有的。

解析日期时是否严格要求

如果你想严格的解析数据字段,可以禁用这个选项。

果启用的时候,Jan32nd将变成Feb1st。

本地日期格式

在本地日期常常被解析为“Februarywnd,2006”的形

式,在用法语本地化的系统中日期将不会被解析,因为

在法语本地化中February不能理解。

功能3:

错误处理

1、当错误发生的时候,错误处理标签允许你指定这个步骤将重新做些什么。

2、下面是标签的选项列表

选项

描述

忽略错误

如果在解析的时候忽略错误,就指定这个选项。

跳过错误行

使用这个选项来跳过那些出现错误的行。

你可以生成另外的文件来包含发生错误的行号。

如果不跳过错误行,解析错误字段将是空的。

错误计数字段

在输出流行中增加一个字段,这个字段将包含错误发生的行数。

错误字段字段名

在输出流行中增加一个字段,这个字段将包含错误发生的字段名称。

错误文本字段名

在输出流行中增加一个字段,这个字段将包含解析错误发生字段的描述。

警告文件目录

当警告发生的时候,它们将被放进这个目录。

文件名将是<警告目录>/文件名.<日期时间>.<警告文件扩展>。

错误文件目录

当错误发生的时候,它们将被放进这个目录。

文件名将是<错误文件目录>/文件名.<日期时间>.<错误文件扩展>。

失败行数文件目录

当解析行的时候发生错误,行号将被放到这个目录。

文件名将是<错误行目录>/文件名.<日期时间>.<错误行扩展>。

功能4:

过滤

1、在“过滤”标签中,你可以指定文本文件中要过滤的行。

2、下面是标签的选项列表。

选项

描述

过滤字符

搜索字符串。

过滤位置

在行中过滤字符串必须存在的位置。

0是起始位置,如果你指定一个小于0的值,过滤器将搜索整个字符。

停止在过滤器

如果你想在文本文件遇到过滤字符的时候,停止处理,就指定Y。

功能5:

字段

1、设定要导入的字段。

2、选项。

选项

描述。

名称

设置要在输出流中显示的字段名称。

类型

字段类型(String、Date、Number等)。

长度

对于Number:

有效数的数量。

对于String:

字符的长度。

对于Date:

打印输出字符的长度(例如4代表返回年份)。

精度

对于Number:

浮点数的数量。

对于String,Date,Boolean:

未使用。

货币类型

用来解释如$10,000.00的数字。

小数

小数点可以是”.”(10;000.00)或者”,”(5.000,00)。

分组

分组可以是”.”(10;000.00)或者”,”(5.000,00)。

如果为空

空值如何处理。

默认

字段为空的时候的默认值。

去空字符串

处理之前先去空。

重复

Y/N:

如果在当前行中对应的值为空,则重复最后一次不为空的值。

3.2表输入

【功能描述】

这一步常常用来利用连接和SQL,从数据库中读取信息。

自动生成基本的SQL语句。

【操作步骤或操作容】

功能1:

指定选项

选项

描述

步骤名称

步骤的名称,在单一的步骤中,名称必需唯一。

连接

读取数据的数据库连接。

SQL

SQL语句用来从数据库连接中读取数据。

从步骤插入数据

指定我们期待读取数据的步骤名称。

这些信息能被插入到SQL语句。

限制

设置从数据库中读取的行数。

0所有行。

示例:

指定如下SQL语句:

注:

日期可以从“获取系统信息”步骤类型中获取。

3.3EXCEL输入

【功能描述】

这个步骤从EXCEL文件输入数据。

【操作步骤或操作容】

功能1:

指定文件名

参考3.1文本文件输入

功能2:

指定容

选项

描述

头部

检查是否工作表指定了一个头部行。

非空记录

检查是否不需要空行输出。

停在空记录

当步骤在读取工作表遇到一个空行的时候停止读取。

限制

限制输出的行数,0代表输出所有行。

功能3:

字段和错误处理

参考3.1文本文件输入

3.4CSV文件输入

【功能描述】

这个步骤从CSV文件输入数据。

【操作步骤或操作容】

功能1:

指定选项

选项

描述

文件名

CSV文件名。

分割符

文件中使用的分割符。

#附件

只将符号的字符串输入。

NIO的缓冲区大小

定义缓冲区大小。

延迟转换

是否延迟转换。

标题行存在

是否去掉标题行。

添加文件名到结果

是否在结果中输出文件名。

行号字段

行号字段命名。

并行运行

指定并行属性。

文件编码

选择字符集编码。

 

3.5文本文件输出

【功能描述】

这个步骤将数据流输出到文本文件。

【操作步骤或操作容】

功能1:

指定文件

选项

描述

文件名称

输出文件名。

以命令行方式运行

根据指定,把结果输出到命令行或者脚本。

扩展名

在文件名的最后添加一个点和扩展名(.txt)。

文件名里包含步骤数

如果你在多个拷贝中运行步骤,拷贝的数量将包含到文件名中(在扩展名之前)。

文件名包含分区

文件名中包含数据分区数量。

文件名包含日期

文件名中包含系统日期(_20041231)。

文件名包含时间

文件名中包含系统时间(_235959)。

特殊日期格式

指定特殊日期格式。

功能2:

指定容

选项

描述

追加

是否在指定的文件最后追加行。

分隔符

指定在文本中分隔字段的字符,例如;或者制表符。

封闭符

封闭字段的一对字符。

可选。

头部

如果你想有一个头部行,使这个选项可用(文件第一行)。

尾部

如果你想有一个尾部行,使这个选项可用(文件最后一行)。

格式

DOS或者UNIX。

UNIX文件行分隔符是换行符。

DOS文件可以是换行符或者回车符。

编码

指定文件使用的编码。

如果空白就使用系统缺省的编码。

压缩

指定压缩的类型(zip或者gzip)。

长度固定

在字段最后添加空格或者删除字符,直到长度达到指定。

快速数据导出

当处理大量数据到一个文本文件时,提高性能。

(不包含任何格式化信息)。

分拆…每一行

如果N比0大,用N行拆分文本文件,分割成多个部分。

增加文件结束行

指定输出文本的结束行。

功能3:

指定字段

参考3.1文本文件输入

3.6表输出

【功能描述】

这个步骤将数据导入数据库表。

【操作步骤或操作容】

功能1:

指定选项

选项

描述

连接

用来写数据的数据库连接。

目标模式

数据库的模式名。

目标表

要写数据的表名。

提交记录数量

在数据表中用事务插入行。

如果N比0大,每N行提交一次连接。

否则,不使用事务,速度会慢一些。

裁剪表

在第一行数据插入之前裁剪表。

忽略插入错误

使Kettle忽略比喻违反主键约束之类的插入错误,最多20个警告将被日志记录。

在批量插入的时候这个功能不可用。

使用批量插入

如果你想批量插入的话,就使用这个选项。

这个选项的速度最快,默认被选上。

表分区数据

使用这个选项可以在多个表之间拆分数据。

表名定义在一个字段

使用这些选项可以拆分数据到一个或者多个表里,目标表名可以用你指定的字段来定义。

例如如果你想存储顾客性别数据,这些数据可能会存储到表M和表F里面(female女性和male男性表)。

这个选项可以阻止这些字段插入到对应的表里。

返回一个自动产生的关键字

往表中插入行时,是否产生一个关键字。

自动产生关键字的字段名称

指定包含关键字的输出字段的字段名称。

指定数据库字段

只导入指定的字段,多余的字段忽略。

功能2:

字段值与数据流对应

3.7EXCEL输出

【功能描述】

这个步骤将数据写入EXCEL表。

【操作步骤或操作容】

功能1:

指定文件

选项

描述

文件名和扩展名

用于指定输出文件。

不要在启动时创建文件

只写入已存在文件。

文件名里包含步骤数

允许文件并行创建,并在文件名里包含步骤数。

文件名里包含日期

在文件名里包含日期。

文件名里包含时间

在文件名里包含时间。

指定日期时间格式

指定日期时间格式。

添加文件名到结果中

输出字段中包含文件名字段。

功能2:

指定容

选项

描述

追加

追加记录。

检查表单是否有头部。

检查表单是否有尾部。

编码

指定EXCEL表单使用的编码。

分割所有行

分割数据到几个输出文件中。

使用模板

输出的EXCEL数据是否使用模板。

EXCEL模板

格式化EXCEL输出的模板的名称。

追加EXCEL模板

是否将EXCEL输出添加到指定的EXCEL模板中。

功能3:

指定字段

指定你想输出到EXCEL文件中的字段

3.8插入/更新

【功能描述】

这个步骤利用查询关键字在表中搜索行。

如果行没有找到,就插入行。

如果能被找到,并且要被更新的字段没有任何改变,就什么也不做。

如果有不同,行就会被更新。

【操作步骤或操作容】

功能1:

指定选项

选项

描述

连接

用来写数据的数据库连接。

目标模式

数据库的模式名。

目标表

要写数据的表名。

提交记录数量

提交之前要改变(插入/更新)的行数。

不执行任何更新

如果被选择,数据库的值永远不会被更新。

仅仅可以插入。

用来查询的关键字

可以指定字段值或者比较符。

可以用以下比较符:

=,

<>,<,<=,>,LIKE,BETWEEN,ISNULL,ISNOTNULL。

更新字段

指定你想要插入/更新的字段。

3.9更新

【功能描述】

这个步骤查找当前数据库符合要求的记录,并更新指定字段。

【操作步骤或操作容】

功能1:

指定选项

选项

描述

连接

用来写数据的数据库连接。

目标模式

数据库的模式名。

目标表

要写数据的表名。

提交记录数量

提交之前要改变的行数。

跳过扫描

不执行查询。

忽略查询失败

如果被选择,则查询失败时不执行任何操作。

用来查询值的关键字

可以指定字段值或者比较符。

可以用以下比较符:

=,

<>,<,<=,>,LIKE,BETWEEN,ISNULL,ISNOTNULL。

更新字段

指定你想要更新的字段。

3.10删除

【功能描述】

这个步骤查找当前数据库符合要求的记录,并删除。

【操作步骤或操作容】

功能1:

指定选项

选项

描述

连接

用来写数据的数据库连接。

目标模式

数据库的模式名。

目标表

要写数据的表名。

提交记录数量

提交之前要改变的行数。

查询值所需的关键字

可以指定字段值或者比较符。

可以用以下比较符:

=,

<>,<,<=,>,LIKE,BETWEEN,ISNULL,ISNOTNULL。

3.11调用DB存储过程

【功能描述】

这个步骤允许你运行一个数据库存储过程,获取返回结果。

【操作步骤或操作容】

功能1:

指定选项

选项

描述

连接

存储过程所有的数据库的连接名称。

存储过程名称

调用的存储过程或者函数名称。

自动提交

在运行存储过程的时候自动提交。

返回值名称

调用存储过程或者函数返回结果的名称。

返回值类型

调用存储过程或者函数返回结果的类型。

参数

存储过程或者函数需要的参数列表。

3.12Switch分支

【功能描述】

这个步骤允许你将数据流按条件分流,输送到不同的下一个步骤。

【操作步骤或操作容】

功能1:

指定选项

选项

描述

字段名称转换

待判断分流条件的字段名。

使用字符串包含

开启模糊匹配。

类型

选择数据类型。

格式表达式

指定数据的格式(数字格式或日期格式)。

小数点符号

指定小数点符号。

分组符号

指定分组符号。

指定不同的值,以及相应的目标步骤。

3.13修改JavaScript的值

【功能描述】

这个步骤允许你用JavaScript语言做复杂的运算。

【操作步骤或操作容】

功能1:

指定选项

✧Java脚本功能

针对可用的脚本、函数、输入字段和输出字段,提供一个树菜单浏览。

✧脚本

这个区域为你提供脚本的编辑。

你可以插入函数、常量、输入字段等等。

✧字段

字段表包含了脚本变量的列表,其中包括元数据。

✧获取变量

获取脚本中的变量列表。

✧测试脚本

测试脚本的语法。

3.14值映射

【功能描述】

这个步骤简单的映射字符串,从一个值映射到另一个值。

例如:

如果你想替换Languagecodes,你可以:

使用的字段名:

LanuguageCode

目标字段名:

LanguageDesc

源值/目标值:

EN/English,FR/French,NL/Dutch,ES/Spanish,DE/German,…。

【操作步骤或操作容】

功能1:

指定选项

选项

描述

使用的字段名

待进行值映射转换的字段名。

源值

转换前的值。

目标值

转换后的值。

3.15列转行

【功能描述】

这个步骤允许你将按列存储的数据转换为按行存储。

【操作步骤或操作容】

功能1:

指定选项

选项

描述

分隔字段

需要列转行的字段名。

分隔符

字段中的分隔符。

新字段名

转换后的字段名。

3.16去除重复记录

【功能描述】

这个步骤允许你去除关键字重复的记录。

【操作步骤或操作容】

功能1:

指定选项

选项

描述

拒绝重复行

增加重复行数到输出。

错误描述

包含重复行号的字段的名称。

用来比较的字段

指定重复值字段。

3.17去除重复记录(哈希集合)

【功能描述】

参考3.16去除重复记录。

3.18增加常量

【功能描述】

这个步骤很简单,主要是添加常量到流中。

它的使用也很容易:

用字符串形式指定名称,类型和值。

利用选择的数据类型指定转换格式。

【操作步骤或操作容】

功能1:

指定选项

选项

描述

名称

增加的字段名称。

类型

字段类型。

格式

字段格式(数据格式、日期格式)。

长度、精度

增加的字段的长度和精度。

3.19增加序列

【功能描述】

这个步骤在流中增加一个序列。

一个序列是在某个起始值和增量的基础上,经常改变的整数值。

你可以使用数据库的序列,也可以使用ETL工具决定的序列。

备注:

ETL序列在同一个转换中是唯一使用的。

每一次转换运行的时候,序列的值又会重新循环一次(从开始值开始)。

【操作步骤或操作容】

功能1:

指定选项

选项

描述

值的名称

新序列值的名称,将被添加到流中。

使用数据库获取序列

如果想使用数据库的序列,使用些选项。

使用计数器来计算序列

如果想使用ETL工具生成的序列,使用此选项。

计数器名称(可选)

如果一个转换中多个步骤生成同样的值名称,这个选项允许你指定计数器的名称,避免按照先后顺序通过多个步骤。

3.20字段选择

【功能描述】

这个步骤常常用来:

选择字段、重命名字段、指定字段的长度或者精度。

下面是三个不同标签的功能:

1、选择和修改:

指定需要流到输出流中的字段的精确顺序和名称。

2、删除:

指定必须从输出流中删除的字段。

3、元数据:

修改元数据字段的名称、类型、长度和精度。

【操作步骤或操作容】

功能1:

指定选项

选项

描述

字段名称

选择或者修改的字段名称。

改名

如果不想改名,就使用空白。

长度

输入数字指定长度(-1:

代表没有长度指定)。

精度

输入数字指定精度(-1:

代表没有精度指定)。

3.21字符串裁剪

【功能描述】

这个步骤允许你将数据流中的字符串进行裁剪,生成新的字符串。

【操作步骤或操作容】

功能1:

指定选项

选项

描述

在流中

输入流中的原字段名。

输出流

裁剪后的输出字段名。

开始

开始裁剪位置(若从第一个字符开始,填0)。

结束

结束裁剪位置(第一个字符为1,依次类推)。

3.22封锁步骤

【功能描述】

这是一个非常简单的步骤。

它冻结所有的输出,直到从上一步骤来的最后一行数据到达,最后一行数据将发送到下一步。

你可以使用这个步骤触发常用插件、存储过程和JavaScript等等。

【操作步骤或操作容】

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 经管营销 > 经济市场

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2