DataStage 学习 - 图文 下载本文

DataStage学习

1.基本的工具介绍:

用户通过各个客户端工具访问DataStage企业版的开发、配置和维护功能。这些工具包括:

Designer:用来建立和编辑DataStage作业和表的定义。Designer中的“Job

Sequencer”控制作业的执行,其他作业成功完成(或失败,等)的条件。

Administrator:用来执行管理任务,如建立DataStage用户、建立和删除工

程并且建立清洗标准。

Manager:用来编辑管理用户工程的DataStage资料库。

Director:用来验证、时序安排、运行和监测企业版作业。

2.试学习例子

图二、DataStage企业版数据流图示

2.1

。企业版Aggregator Stage的编辑器如下所示。

图三、企业版编辑Aggregator Stage图标和Stage编辑器例子

2.2

企业版Transformer Stage是一个强大和灵活的组件,允许用户对input link输入的数据进行转换。并且将数据传到另一个活动的Stage或者将数据写到目标数据或文件。Transformer编辑器(如下所示)使得用户可以在input liks和output link间简单建立mapping,并且可以使用BASIC等语言建立任意转换。这些转换可以并行执行来提高吞吐量和性能。企业版提供了超过100个内嵌的功能,另外可以用C或C++编写的route在转换中使用和进行互操作。

图四、企业版Transformer Stage图标和Stage编辑器例子

2.3

Enterprise Deployment and Management

许多大的公司都又他们自己的在复杂生产环境下的配置、时间序列、监测和管理应用的标准。DataStage企业版提供了灵活功能来迎合这些需要。

首先,DataStage提供了一个图形化的作业顺序器,允许用户定义作业执行的序列。设计一个作业序列就象设计一个作业。用户在DataStage中设计作业序列。从工具条增加一个Activities(相对于Stage),并且通过Trigger进行连接用以定义控制流。每个activity都有属性,可以在trigger表达式中测试并且传到序列前面的其他的activity中。Activity也可以有参数,可以用来支持job参数或routine参数。Job序列可以有自己的属性和参数,这些属性和参数可以顺序传到activity中。序列也可以包括控制信息,例如,序列中job的成功或失败影响活动的走向。一旦job序列被定义完成,可以在任何提供的接口(下面做详细的介绍)中建立时间顺序和执行。

图五、DataStage Job序列例子

2.4

附录A:DataStage企业版内嵌的扩展Stage

Stage Transformer 描述 对任何需要转换的输入的数据集合进行转换,并将数据传输到其他活动的Stage中或一个将数据写入数据库或文件的Stage Sort Merge Join External Filter Aggregator Make Vector Make Subrecord Split Vector Combine Records Compare Lookup Lookup File Set 用来并行执行更复杂的排序操作 将一个或多个排序的更新数据集合合并成一个排序的主数据集合(应该是同一样的数据字段,不然就很难进行了得下去了。) 在一个或多个输入数据集合上执行连接操作并输出一个结果数据集,连接操作支持:inner、left outer、right outer和full outer(可以是不同字段的表进行相互合并。) 允许指定一个作为处理数据过滤器的unix命令行 (这个还没有用过,有机会的话,要试下,看能不能真正实现) 对于单一的输入数据记录进行分组并且计算每一组的合计和总计 组合输入数据记录中指定的字段到一个具有相同类型的字段矢量 组合指定的输入数据集合中的矢量到子记录的矢量,它的字段具有和原始矢量相同的名字和类型 提升固定长度矢量的参数到一系列相似的命名顶级字段 组合那些主键字段值被指定的记录到子记录矢量 对两个分拣输入数据集合中的记录进行一个字段一个字段的检查 对包含在lookup file set stage中的查找表进行查找操作 允许建立一个查找文件集合或查找参考