7.2.4 硬件配置示例
CTG-MBOSS 规范
基于上诉估算规则,参考现有的省公司建设ODS实际建设情况,不同规模省公司的主要设备配置如下表所示,可供各省在ODS系统的建设过程中参考。
低端配置建议(900万左右用户规模) 服务器 数据库服务器 数量 2 型号 p550 CPU 内存 Disk HACMP 1套 TPC-C 20万 4*1.65GHz 16GB 2块73GB 15K内置硬盘 ETL服务器 2 P550 4*1.65GHz 16GB 2块73GB 15K内置硬盘 1套 20万 报表服务器 1 p520 2*2.1GHz 8GB 2块73GB 15K内置硬盘 与web服务器互备 与报表服务器互备 10万以上 10万以上 Web服务器 1 p520 2*2.1GHz 8GB 2块73GB 15K内置硬盘 存储 1 磁盘阵列24*146GB 15K,4GB,375K IOPS、双活动4GB RAID控制DS4800 器、CPU主频2.4GHz、冗余电源和风扇。 1 磁带库TS3200 1个LTO3驱动器,15盘磁带,5盘清洁带,FC接口 中端配置建议(1400万左右用户规模) 服务器 数据库服务器 ETL服务器 2 P550 4*1.65GHz 16GB 数量 2 型号 p560 CPU 内存 Disk 2块73GB 15K内置硬盘 2块73GB 15K内置硬盘 1套 20万 HACMP 1套 TPC-C 80万 16*1.8GHz 64GB 版权所有,注意保密
61
E-O:技术规范
报表服务器 1 p520 2*2.1GHz 8GB
CTG-MBOSS 规范
2块73GB 15K内置硬盘 与web服务器互备 与报表服务器互备 10万以上 10万以上 Web服务器 1 p520 2*2.1GHz 8GB 2块73GB 15K内置硬盘 存储 1 磁盘阵列DS4800 40*146GB 15K,4GB,375K IOPS、双活动4GB RAID控制器、CPU主频2.4GHz、冗余电源和风扇 1个LTO3驱动器,28盘磁带,5盘清洁带,FC接口 1 磁带库TS3200 高端配置建议(2300万左右用户规模) 服务器 数据库服务器 ETL服务器 2 数量 2 型号 p590 P550 CPU 16*2.1GHz 内存 64GB Disk 2块73GB 15K内置硬盘 8*1.65GHz 32GB 2块73GB 15K内置硬盘 报表服务器 1 p520 2*2.1GHz 8GB 2块73GB 与web服10万以上 10万以上 1套 40 万 HACMP 1套 TPC-C 120万 15K内置硬盘 务器互备 Web服务器 1 p520 2*2.1GHz 8GB 2块73GB 与报表服15K内置硬盘 务器互备 存储 1 磁盘阵列DS4800 1 磁带库TS3200
64*146GB 15K,4GB,375K IOPS、双活动4GB RAID控制器、CPU主频2.4GHz、冗余电源和风扇 1个LTO3驱动器,44盘磁带,5盘清洁带,FC接口 版权所有,注意保密
62
E-O:技术规范
7.3 第三方工具评价标准及产品比较 7.3.1 ETL工具
CTG-MBOSS 规范
ETL过程是ODS/EDW等相关系统实施过程中至关重要的一个环节,也是实施中工作量最大的一个环节,ETL过程的质量好坏往往决定着整个项目的成败。目前各省的项目实施过程中,自主开发ETL模块和采用ETL工具是两种主流的解决方案,对于自主开发ETL模块来说,利用系统进行自行开发,可充分利用系统的优化操作,提高数据处理效率,但其可扩展性欠佳,且后期维护成本较高;而对于购买ETL工具来说,可灵活定制数据处理流程,简化数据开发,缩短ETL方案实施周期,后期维护相对容易。从未来的发展趋势和目前的项目经验来看,由于ETL的过程日趋复杂,ETL的地位日趋重要,选择ETL工具将逐渐成为主流的趋势,下表是对目前市场上两种常用ETL工具在部分方面的评价,可作为各省在工具选择时的参考。建议各省在方案的选择上结合自身实际情况和需求,在保证ETL性能和准确性的前提下,选择合适的ETL工具以及适合自身建设模式的ETL方案。
大项 市场 小项 市场占有率 Informatica 和IBM DataStage处于业界前两位,市场份额超过12% 有,在中国移动有较多的应用案是否有电信行业的实施经验 例,在中国电信也有应用(上海、江苏、贵州) IBM datastage 市场占有率第一,拥有较大的市场份额 有,在中国移动多省已有实际的应用,在中国电信也有应用(福建、重庆、安徽、贵州、四川、海南) 服务 国内服务人员 国内是否有原厂商技术支持 服务响应水平 平台支持 有一支41人的工程师队伍 是 通常由代理商提供服务 50名全球认证工程师 是 原厂商工程师直接处理客户问题,暂无800支持 支持Windows(32位和64位) HP Unix(32位和64位) IBM AIX(32位和64位) Sun Solaris(32位和64位) 支持,有较好的可移植性 支持,需要一些相关配置文件的修改支持 支持所列的所有主流平台 支持主流的平台,包括:SUN Solaris, HP-UX, IBM AIX, AS/400, OS/390, Sco Unix, Linux, Windows 平台间的可移植性(包含不同平台间移植以及从相同平台开发环境到生产版权所有,注意保密
63
E-O:技术规范
环境间的移植) 数据源及目标数据库 广泛的数据源和目标数据库支持:如DB2, Informix, Oracle, Sybase, SQLServer, Teredata, OleDB, SAS, Text, Excel, SAP, Peoplesoft, IMS, VSAM, QSAM on 390, FTP, XML, MessageQueue, Weblog 是否支持多种字符集(GBK、Unicode、UTF-8)数据源 数据抽取、转换、装载功能 对抽取到的数据能进行灵活的计算、合并、拆分等转换操作。 支持字段映射; 映射的自动匹配; 字段的拆分; 多字段的混合运算; 跨异构数据库的关联; 多数据类型支持; 复杂条件过滤; 支持脏读; 数据的批量装载; 时间类型的转换; 对各种码表的支持; 环境变量是否可以动态修改; 去重复记录; 支持所列的3种字符集
CTG-MBOSS 规范
支持所列的所有数据源和目标数据库 支持所列的所有数据源和目标数据库 支持所列的3种字符集 支持计算、合并、拆分等转换操作 支持,图形化工具实现 支持 支持 支持 支持 支持所有数据类型 支持 支持 支持 支持目前所有的时间类型的相互转换 支持 是 支持 支持,包括一台机器DOWN掉重起支持计算、合并、拆分等转换操作 支持 支持 支持 支持,运算规则灵活配置 支持 支持 支持,过滤条件灵活配置 支持 支持 支持 支持 是 支持 支持 抽取断点; 后的断点续传,也包括一台机器DOWN掉,另一台备机能断点续传 记录间合并或计算; 记录拆分; 抽取的字段是否可以动态修改; 行、列变换; 排序; 统计; 支持 支持 支持 支持 支持多种规则排序 支持多种维度统计 支持 支持 支持 支持横表、纵表转换 支持 支持 版权所有,注意保密
64
E-O:技术规范
度量衡等常用的转换函数; 抽取远程数据; 增量抽取的处理方式; 在转换过程中是否支持数据比较的功能; 数据预览; 数据清洗及标准化; 按行,按列的分组聚合; 是否有良好的参数处理机制等 管理和调度功能 ETL工具升级,版本管理; 抽取过程的备份与恢复; 支持 支持,工具自带
CTG-MBOSS 规范
支持,工具内嵌,可以自己配置 支持 支持 支持 支持 支持 支持 支持 支持,能够自动标准化数据,查重 支持 支持 支持自动和手动备份与恢复 支持,能够标准化数据,合并数据 支持 支持 支持自动备份和手动备份,支持自动恢复与手动恢复,有较好的断点恢复功能 方便的升级,工具具有版本管理功能,自带数据库保存版本 提供统一的管理平台,实现快速工具提供的管理平台具有版本管理的功能 工具提供统一的管理平台,在平台上实现开发和部署,部署也可以通过自定义的管理平台实现 开发和发布支持统一以及自定义的管理平台; 的开发和部署;也可以兼容自定义的管理平台,实现部署 支持用户对计算机资源的管理和分配; 支持对主机CPU、内存等资源的管理和分配 支持,在执行一个ETL任务时能支持 支持,ETL进程能够并行执行 调度过程中能否执行其他任务等 启动执行另外的ETL任务,实现并发性 支持,通过工作流来建立前置和ETL工具内嵌的功能能够自动收集各个实体之间的依赖关系,外界通过查询某个实体就可以知道它的前后依赖关系 有冲突分析机制 有较好的冲突分析机制,如一个ETL流程涉及多个实体,当对某个实体作变动时,会给出提示 是否支持数据依赖的建立 后置环节的依赖关系 是否有较好的冲突分析机制 版权所有,注意保密
65
E-O:技术规范